Tensorflow实战:端到端简单粗暴识别验证码(反爬利器)


今天分享一下如何简单粗暴的解决验证码的办法

背景:

  1. 对于一个爬虫开发者来说,反爬虫无疑是一个又爱又恨的对手,两者之间通过键盘的斗争更是一个没有硝烟的战场。

  2. 反爬虫有很多措施,在这里说说验证码这一块

  3. 论爬虫修养:大家都是混口饭吃,上有老下有小,码农何苦为难码农?爬数据的时候尽可能减少服务器压力,能爬列表页,就不爬详情页


正文:

  1. 数据集:百度上找的一个验证码数据集(因为懒得生成),也可以自己生成。

  2. 在训练前可以先对图片进行降噪,去掉干扰点,可以用opencv里面的函数滤波器等。这样识别会快点

  3. 在这里我就没有去做啦,不然怎么叫粗暴呢(真正:懒, 没时间)

  4. 准确率训练到90+我就保存模型停止了,大家可以根据需求设置。看下图


1.jpg

  1. 这里是训练中的loss以及accuracy


2.jpg

  1. 这里是测试


3.jpg

  1. 这个是识别有错误的,毕竟我的GTX950也辛苦算了这么久,再说这个7这么像1呀。莫得了。


4.jpg


话不多说来个网络结构图再说

5.jpg


觉得有点乱的,看看下面的图

6.jpg


划重点:show you code

7.jpg


3个卷积层, 2个全连接层

8.jpg


损失函数,以及优化器

9.jpg


最后就是训练了

10.jpg


来源:

https://blog.csdn.net/weixin_4 ... 18013
已邀请:

要回复问题请先登录注册

返回顶部