分类目录归档:python

记一次探索ID3算法的过程


import pandas as pd
#import openpyxl
import math

#计算对数的方法,第二个参数代表底,或者直接用log2
#print(math.log(4,2))
#print(math.log(10))#此时代表自然对数

#使用openpyxl操作工作表
#wb = openpyxl.load_workbook('配眼镜.xlsx')
#ws_data = wb['Sheet1']
#删除第一行
#ws_data.delete_rows(1)
#header = None 不指定索引
df = pd.read_excel(

Read more

爬取前程无忧职位信息并数据可视化


写在前面

最近在学习爬虫和数据分析,在CSDN看到TRHX • 鲍勃的文章,受益匪浅,但是在爬取数据的时候,发现前程无忧使用了动态加载js,使用requests无法爬取部分数据,而且调用lxml解析网页变得比以前更难了,这里使用的反反爬就是selenium和re正则暴力匹配...bs4可能仅仅用于解决Unicode字符编码问题。

用到的包

#用于请求网页数据
import requests
#正则表达式、json字典
import re,json
#爬取过程中用于暂停
import time
#用于操作Excel
import openpyxl
#模拟真实用户获取职位信息总页数
from se

Read more

爬取B站视频并对音视频混流


爬虫本体

代码仅供学习交流使用,请不要大量爬取,也不可将之用于商业用途,如需转载视频请征求视频作者同意,所产生的法律纠纷与本人无关。

用到的包

#如果缺失请在cmd下使用pip install xxx进行安装
import requests
import re,os
import time

两个请求头

#用于抓取搜索结果页的视频入口
first_headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

Read more

使用moviepy模块操作视频与音频


代码与注释

#裁剪与写入
from moviepy.editor import VideoFileClip,AudioFileClip
#拼接视频与音频
from moviepy.editor import concatenate_videoclips,concatenate_audioclips
#预加载的视频
videoFile = 'demo.avi'
#要保存的文件名
video_name = 'cut_video.mp4'
audio_name = 'cut_audio.mp3'
#载入文件
video = VideoFileClip(

Read more

爬取微博热搜并发送提醒(改进版)


写在前面

今天在csdn看到了一篇爬取微博热搜并发邮件的博客,但是我在将其部署到腾讯云函数时出现了错误,于是使用server酱推送到微信,效果看起来还不错,废话不多说,上代码!

用到的包

# -*- coding: utf-8 -*-
"""
Created on Thu Aug  6 18:09:58 2020

@author: ljc545w
"""
#请在cmd下使用pip install requests命令安装依赖
import requests
import re
import datetime
#以下三个包用于发送邮件

Read more

爬取微博热搜并发送定时邮件


用到的包

#请先在窗口执行import xxx,然后安装缺失的第三方包
import requests
from pyquery import PyQuery as pq
import datetime
import schedule
import time
import smtplib
from email.mime.text import MIMEText
from email.header import Header

日期与请求头

headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Wi

Read more

python爬取网易云音乐


用到的包

import requests
import re,lxml
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup as bs
from selenium.webdriver.chrome.options import Options

selenium无可视化

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument(&

Read more