分类目录归档:机器学习

基于深度学习的图片验证码识别


写在前面

做自动化流程的时候会遇到各种各样的验证码,图片验证码无疑是最常见的了,本文记录一下破解验证码的过程。

主要环境

Windows 10Pro 64位
PyCharm 2021.2 Community
python3.8.5 64位
tensorflow 2.5.0
keras 2.4.3
opencv-python 4.5.3.56
scikit-learn 0.24.2

目标验证码

这里训练集(手工标注1000张)和验证集(手工标注100张)使用的都是处理过的验证码,原图因为部分原因无法提供 训练集

分割字符

主要代码如下:

# -*- coding: utf-8 -*-
"&q

Read more

朴素贝叶斯分类器


写在前面

无聊的时候总要找点事情做,今天就搞了搞朴素贝叶斯分类,训练样本集为playtennis,此案例是我大学期间在一本名为《数据挖掘》的书中看到的,比较简单,当时是用matlab做的,根据算法原理写了好多for循环,今天用python试了试,原本以为sklearn里面会有对应的方法,实际上也确实有,但测试集包含的数据量太少,训练得到的模型精度非常低,所以根据朴素贝叶斯分类的原理写了代码,在此记录一下。

算法介绍

该算法主要依据贝叶斯公式,是一种有监督的机器学习,算法思想真的很朴素!具体参考下面链接。


  1. 带你理解朴素贝叶斯【知乎】
  2. 朴素贝叶斯分类器【百度百科】

数据集

Outloo

Read more

记一次探索ID3算法的过程


import pandas as pd
#import openpyxl
import math

#计算对数的方法,第二个参数代表底,或者直接用log2
#print(math.log(4,2))
#print(math.log(10))#此时代表自然对数

#使用openpyxl操作工作表
#wb = openpyxl.load_workbook('配眼镜.xlsx')
#ws_data = wb['Sheet1']
#删除第一行
#ws_data.delete_rows(1)
#header = None 不指定索引
df = pd.read_excel(

Read more