Web crawler \ Spider

Web爬虫(有时称为蜘蛛或蜘蛛机器人,通常缩写为爬虫)是一种系统地浏览万维网的Internet机器人,通常用于Web索引(Web爬行)。
  4.8k
网络爬虫 \ 蜘蛛

weibospider

用于微博的分布式爬虫,用celery和requests构建。(A distributed crawler for wei...
MIT
Python
  1.5k
网络爬虫 \ 蜘蛛

grab-site

archivist 的 web crawler。WARC输出,所有爬行的仪表板,动态忽略模式。「The archivis...
NOASSERTION
Python
  24.1k
网络爬虫 \ 蜘蛛

Colly

优雅的 Golang Scraper 和爬虫框架。「Elegant Scraper and Crawler Framew...
Apache-2.0
Go
网络爬虫 \ 蜘蛛

metha

命令行 OAI 采集器和客户端,内置缓存。「Command line OAI harvester and client ...
GPL-3.0
Go
  4k
网络爬虫 \ 蜘蛛

scrape-it

面向人类的 Node.js 搜刮器。「🔮 A Node.js scraper for humans.」
MIT
JavaScript
网络爬虫 \ 蜘蛛

Spidermon

用于监控蜘蛛执行情况的 Scrapy 扩展。「Scrapy Extension for monitoring spide...
BSD-3-Clause
Python
  2.2k
网络爬虫 \ 蜘蛛

news-please

news-please - 可正常运行的集成式 web 爬虫和新闻信息提取器。*提示:使用请注意遵守当地法律。「news...
Apache-2.0
Python
To the top