写在前面
一直以为微博的东西比较好搞,没想到还是有点坑。新浪把评论的模块保存在一个json字典里,真的是够了。。。前20页可以轻易爬取,21页以后需要获取前一页最后一个评论的ID以及已经展示的评论总数。
包和全局变量
#时间管理带师
import time
#网页请求
import requests
#解析网页
from bs4 import BeautifulSoup as bs
#统计已经展示的评论数量
num = 0
#请自行登录新浪获取cookie
cookie = {}
#请求头
headers = {
'sec-fetch-dest':'empty