spider

A configurable web spider with a easy-to-use web console

Github星跟踪图

欢迎使用 Gather Platform 数据采集与分析平台


Readme in English

欢迎加入 Gather Platform交流 QQ群 : 206264662

详细使用方法请参考 在线文档

Build Status

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

  • 根据配置的模板进行数据采集,支持Ajax网页采集
  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间
  • 动态字段抽取与静态字段植入
  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据
  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词
  • 含有相关文章推荐,文章中人物、地点之间的关联关系分析

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集.
不需要进行任何编码就可以完成一个功能强大的爬虫.

Windows/Mac/Linux 全平台支持

本系统需要如下依赖:

  • JDK 8 及以上
  • Tomcat 8.3 及以上

可选依赖组件:

 - Elasticsearch 5.0

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

联系我

邮箱: 63388@qq.com

主要指标

概览
名称与所有者gsh199449/spider
主编程语言Java
编程语言Java (语言数: 2)
平台
许可证GNU General Public License v3.0
所有者活动
创建于2016-11-24 01:48:03
推送于2018-08-21 05:26:31
最后一次提交2017-05-21 23:40:34
发布数8
最新版本名称V0.6 (发布于 2017-05-16 19:13:43)
第一版名称V0.1 (发布于 )
用户参与
星数1k
关注者数122
派生数484
提交数104
已启用问题?
问题数28
打开的问题数4
拉请求数4
打开的拉请求数0
关闭的拉请求数1
项目设置
已启用Wiki?
已存档?
是复刻?
已锁定?
是镜像?
是私有?