分类标签归档:爬虫

爬取电影天堂流媒体并整合


用到的包

#用于请求网页
import requests
#分别用于正则匹配、获取目录信息、字符串加载为字典
import re,os,json
#用于解析网页
from bs4 import BeautifulSoup as bs
#用于合并流媒体
from moviepy.editor import *
#用于获取随机的匿名IP
import random

初始化

#获取电影关键词
keyword = input('请输入关键词:')
#为电影创建目录
if not os.path.exists(keyword):
    os.mkdir(keyword)
#切换到专属

Read more

爬取前程无忧职位信息并数据可视化


写在前面

最近在学习爬虫和数据分析,在CSDN看到TRHX • 鲍勃的文章,受益匪浅,但是在爬取数据的时候,发现前程无忧使用了动态加载js,使用requests无法爬取部分数据,而且调用lxml解析网页变得比以前更难了,这里使用的反反爬就是selenium和re正则暴力匹配...bs4可能仅仅用于解决Unicode字符编码问题。

用到的包

#用于请求网页数据
import requests
#正则表达式、json字典
import re,json
#爬取过程中用于暂停
import time
#用于操作Excel
import openpyxl
#模拟真实用户获取职位信息总页数
from se

Read more

爬取B站视频并对音视频混流


爬虫本体

代码仅供学习交流使用,请不要大量爬取,也不可将之用于商业用途,如需转载视频请征求视频作者同意,所产生的法律纠纷与本人无关。

用到的包

#如果缺失请在cmd下使用pip install xxx进行安装
import requests
import re,os
import time

两个请求头

#用于抓取搜索结果页的视频入口
first_headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

Read more

爬取微博热搜并发送定时邮件


用到的包

#请先在窗口执行import xxx,然后安装缺失的第三方包
import requests
from pyquery import PyQuery as pq
import datetime
import schedule
import time
import smtplib
from email.mime.text import MIMEText
from email.header import Header

日期与请求头

headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Wi

Read more

python爬取网易云音乐


用到的包

import requests
import re,lxml
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup as bs
from selenium.webdriver.chrome.options import Options

selenium无可视化

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument(&

Read more

爬虫中bs4的使用


bs4解析网页

以爬取某网站表情包为例

用到的包

import requests
import re,os
from bs4 import BeautifulSoup as bs

URL地址

urls = ['https://www.doutula.com/search?type=photo&more=1&keyword=%E6%80%BC%E4%BA%BA&page={}'.format(i + 1) for i in range(50)]
headers = {
    'User-Agent':'Mozilla/5.0 (

Read more

爬取猫眼TOP100


爬取猫眼电影100榜

import re,os
import requests
import time,openpyxl
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }

def get_html(url,headers):
    r = requests.get(url,headers = headers)

Read more