分类标签归档:python

初探Python爬虫Scrapy框架


安装框架

pip install scrapy -i https://pypi.douban.com/simple

创建项目

#打开CMD,cd到自己要保存项目的文件夹
scrapy startproject myspider

目标数据

本次尝试抓取目标链接中的讲师姓名、职称和个人信息。 则修改myspider目录下的items.py文件:

import scrapy
class DeatilItem(scrapy.Item):
    name = scrapy.Field()
    title = scrapy.Field()
    info = scrapy.Field()

Read more

python中的logging模块


logging是什么?

logging可以用于记录程序的运行状态,帮你确定到底是哪条语句出现了错误,而不用再苦逼的使用print来Debug,本篇记录一些简单操作。

打印信息

import logging
#设定配置信息,level为级别,严重性为debug<info<warning<error<critical,默认为warning
#严重性低于level的日志信息将不会被统计
#format格式化输出信息,包括时间,py文件名,代码行数,日志级别及输出信息
#datefmt格式化时间戳,filename指定保存日志的文件,filemode为文件打开方式,默认为a也可

Read more

python中对列表进行copy的几种方式


第一种

#直接赋值
a = [1,2,3,['a','b']]
b = a
a.append(4)
print(b)
#输出结果
[1, 2, 3, ['a', 'b'], 4]
#相当于a和b指向同一个内存空间

第二种

#调用列表自带的copy方法
a = [1,2,3,['a','b']]
b = a.copy()
a.append(4)
print(b)
a[3].append('c')
print(b)
#输出结果
[1, 2, 3, ['a', '

Read more

爬取电影天堂流媒体并整合


用到的包

#用于请求网页
import requests
#分别用于正则匹配、获取目录信息、字符串加载为字典
import re,os,json
#用于解析网页
from bs4 import BeautifulSoup as bs
#用于合并流媒体
from moviepy.editor import *
#用于获取随机的匿名IP
import random

初始化

#获取电影关键词
keyword = input('请输入关键词:')
#为电影创建目录
if not os.path.exists(keyword):
    os.mkdir(keyword)
#切换到专属

Read more

稳定婚姻问题的Python实现


问题描述

“稳定婚姻问题”在生活中是一个典型的问题,通俗地可叙述为:当前有N位男生和N位女生最后要组成稳定的婚姻家庭,过程开始之前男生和女生在各自的心目中都按照喜爱程度对N位异性有了各自的排序.然后开始选择自己的对象,其规则是:男生第一天均向各自最喜欢的女生写一封“情书”。

算法概述

1962年,美国数学家David Gale和Lloyd Shapley发明了一种寻找稳定婚姻的策略,人们称之为延迟认可算法(Gale-Shapley算法)。 先对所有男士进行落选标记,称其为自由男。当存在自由男时,进行以下操作: 1 每一位自由男在所有尚未拒绝她的女士中选择一位被他排名最优先的女士; 2 每一位女

Read more

使用python制作二维码


直接上代码

from MyQR import myqr
url = 'https://www.ljczero.top'
myqr.run(words = url,#目标url
         version = 5,#控制边长,范围1到40
         level = 'H',#控制纠错水平,[L,M,Q,H],从左到右依次升高
         picture = 'heart.gif',#将二维码与自定义图片结合
         colorized = True,#默认是黑白(False),True为彩色
         cont

Read more

记一次探索ID3算法的过程


import pandas as pd
#import openpyxl
import math

#计算对数的方法,第二个参数代表底,或者直接用log2
#print(math.log(4,2))
#print(math.log(10))#此时代表自然对数

#使用openpyxl操作工作表
#wb = openpyxl.load_workbook('配眼镜.xlsx')
#ws_data = wb['Sheet1']
#删除第一行
#ws_data.delete_rows(1)
#header = None 不指定索引
df = pd.read_excel(

Read more

爬取前程无忧职位信息并数据可视化


写在前面

最近在学习爬虫和数据分析,在CSDN看到TRHX • 鲍勃的文章,受益匪浅,但是在爬取数据的时候,发现前程无忧使用了动态加载js,使用requests无法爬取部分数据,而且调用lxml解析网页变得比以前更难了,这里使用的反反爬就是selenium和re正则暴力匹配...bs4可能仅仅用于解决Unicode字符编码问题。

用到的包

#用于请求网页数据
import requests
#正则表达式、json字典
import re,json
#爬取过程中用于暂停
import time
#用于操作Excel
import openpyxl
#模拟真实用户获取职位信息总页数
from se

Read more

爬取B站视频并对音视频混流


爬虫本体

代码仅供学习交流使用,请不要大量爬取,也不可将之用于商业用途,如需转载视频请征求视频作者同意,所产生的法律纠纷与本人无关。

用到的包

#如果缺失请在cmd下使用pip install xxx进行安装
import requests
import re,os
import time

两个请求头

#用于抓取搜索结果页的视频入口
first_headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

Read more