spider

A configurable web spider with a easy-to-use web console

Github星跟蹤圖

欢迎使用 Gather Platform 数据采集与分析平台


Readme in English

欢迎加入 Gather Platform交流 QQ群 : 206264662

详细使用方法请参考 在线文档

Build Status

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

  • 根据配置的模板进行数据采集,支持Ajax网页采集
  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间
  • 动态字段抽取与静态字段植入
  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据
  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词
  • 含有相关文章推荐,文章中人物、地点之间的关联关系分析

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集.
不需要进行任何编码就可以完成一个功能强大的爬虫.

Windows/Mac/Linux 全平台支持

本系统需要如下依赖:

  • JDK 8 及以上
  • Tomcat 8.3 及以上

可选依赖组件:

 - Elasticsearch 5.0

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

联系我

邮箱: 63388@qq.com

主要指標

概覽
名稱與所有者gsh199449/spider
主編程語言Java
編程語言Java (語言數: 2)
平台
許可證GNU General Public License v3.0
所有者活动
創建於2016-11-24 01:48:03
推送於2018-08-21 05:26:31
最后一次提交2017-05-21 23:40:34
發布數8
最新版本名稱V0.6 (發布於 2017-05-16 19:13:43)
第一版名稱V0.1 (發布於 )
用户参与
星數1k
關注者數122
派生數484
提交數104
已啟用問題?
問題數28
打開的問題數4
拉請求數4
打開的拉請求數0
關閉的拉請求數1
项目设置
已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?