Anti-Anti-Spider

越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因,项目暂停)

Github stars Tracking Chart

Anti-Anti-Spider

author@luyishisi & leng-yue

2016-10-24 begin #2017-5-8 end

特别说明:这个项目最初源于对自己爬虫代码的整理以及技术规整,因此部分爬虫源码可能因为网站改版已经不可用,验证码识别方面因为我改良版本用于工作中不可开源,因此采用熊猫的cnn模型以及冷月的滑动破解模型,上传前均亲测可用,且已得其本人授权。

仓库网址位于https://github.com/luyishisi/Anti-Anti-Spider 欢迎stat

本项目由URLTEAM维护

作者博客 https://www.urlteam.org

项目简介:

运用请求伪造,浏览器伪造,浏览器自动化,图像处理,ip处理等方式进行反爬虫技术的通用化代码库,方便未来快速开发。

为以后的采集任务快速开展留下基础代码。

如今项目会包含多项技术的样例代码.

项目起因

本身是想做一个反爬虫的技术攻关站点,如果在总结诸多技术中发觉可以将反反爬虫技术直接保留与代码中。

在之后采集需要时能快速有效的测试该站点具有怎样的反爬特性,并且可以快速的进行代码复用

你可以做什么: 提交你觉得难以采集的网站 联系方式: a83533774@gmail.com

项目结构树:(有待更新)

https://github.com/luyishisi/Anti-Anti-Spider/blob/master/tree.txt

重点项目:

1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}

2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}

3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}

5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}

6:ip更换技术 {代理,tor,adsl}

7:请求伪造 {phantomjs,requests,selenium}

8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}

9:selenium {伪造请求头,支付宝模拟登陆}

UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

Main metrics

Overview
Name With Ownerluyishisi/Anti-Anti-Spider
Primary LanguagePython
Program languagePython (Language Count: 2)
Platform
License:
所有者活动
Created At2016-11-14 01:18:11
Pushed At2021-10-17 20:14:19
Last Commit At2021-08-25 15:59:27
Release Count0
用户参与
Stargazers Count7.3k
Watchers Count449
Fork Count2.2k
Commits Count152
Has Issues Enabled
Issues Count36
Issue Open Count26
Pull Requests Count5
Pull Requests Open Count1
Pull Requests Close Count0
项目设置
Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private