分类标签归档：爬虫

爬取电影天堂流媒体并整合

1033 views

用到的包

#用于请求网页
import requests
#分别用于正则匹配、获取目录信息、字符串加载为字典
import re,os,json
#用于解析网页
from bs4 import BeautifulSoup as bs
#用于合并流媒体
from moviepy.editor import *
#用于获取随机的匿名IP
import random

初始化

#获取电影关键词
keyword = input('请输入关键词：')
#为电影创建目录
if not os.path.exists(keyword):
    os.mkdir(keyword)
#切换到专属

温习爬虫（使用IP代理池）

发表评论

830 views

用到的包

import requests
from bs4 import BeautifulSoup as bs
import time
import random

requests配置

URL = 'https://www.haoshuya.com'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'

爬取前程无忧职位信息并数据可视化

发表评论

691 views

写在前面

最近在学习爬虫和数据分析，在CSDN看到TRHX • 鲍勃的文章，受益匪浅，但是在爬取数据的时候，发现前程无忧使用了动态加载js，使用requests无法爬取部分数据，而且调用lxml解析网页变得比以前更难了，这里使用的反反爬就是selenium和re正则暴力匹配...bs4可能仅仅用于解决Unicode字符编码问题。

用到的包

#用于请求网页数据
import requests
#正则表达式、json字典
import re,json
#爬取过程中用于暂停
import time
#用于操作Excel
import openpyxl
#模拟真实用户获取职位信息总页数
from se

爬取B站视频并对音视频混流

发表评论

861 views

爬虫本体

代码仅供学习交流使用，请不要大量爬取，也不可将之用于商业用途，如需转载视频请征求视频作者同意，所产生的法律纠纷与本人无关。

用到的包

#如果缺失请在cmd下使用pip install xxx进行安装
import requests
import re,os
import time

两个请求头

#用于抓取搜索结果页的视频入口
first_headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

爬取微博热搜并发送定时邮件

发表评论

672 views

用到的包

#请先在窗口执行import xxx，然后安装缺失的第三方包
import requests
from pyquery import PyQuery as pq
import datetime
import schedule
import time
import smtplib
from email.mime.text import MIMEText
from email.header import Header

日期与请求头

headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Wi

python爬取网易云音乐

发表评论

680 views

用到的包

import requests
import re,lxml
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup as bs
from selenium.webdriver.chrome.options import Options

selenium无可视化

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument(&

爬虫中bs4的使用

发表评论

909 views

bs4解析网页

以爬取某网站表情包为例

用到的包

import requests
import re,os
from bs4 import BeautifulSoup as bs

URL地址

urls = ['https://www.doutula.com/search?type=photo&more=1&keyword=%E6%80%BC%E4%BA%BA&page={}'.format(i + 1) for i in range(50)]
headers = {
    'User-Agent':'Mozilla/5.0 (

爬取唯一图库高清壁纸

发表评论

854 views

#用到的包
from bs4 import BeautifulSoup as bs
import requests
import os,re
from urllib import request

#定义请求头
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

#创建目标文件夹
if not os.path.ex

爬取猫眼TOP100

发表评论

820 views

爬取猫眼电影100榜

import re,os
import requests
import time,openpyxl
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }

def get_html(url,headers):
    r = requests.get(url,headers = headers)

传说中的勇者

仰望星空，脚踏实地，胸怀祖国，服务人民

爬取电影天堂流媒体并整合

用到的包

初始化

温习爬虫（使用IP代理池）

用到的包

requests配置

爬取前程无忧职位信息并数据可视化

写在前面

用到的包

爬取B站视频并对音视频混流

爬虫本体

用到的包

两个请求头

爬取微博热搜并发送定时邮件

用到的包

日期与请求头

python爬取网易云音乐

用到的包

selenium无可视化

爬虫中bs4的使用

bs4解析网页

用到的包

URL地址

爬取唯一图库高清壁纸

爬取猫眼TOP100

爬取猫眼电影100榜