spider

A configurable web spider with a easy-to-use web console

Github stars Tracking Chart

欢迎使用 Gather Platform 数据采集与分析平台


Readme in English

欢迎加入 Gather Platform交流 QQ群 : 206264662

详细使用方法请参考 在线文档

Build Status

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

  • 根据配置的模板进行数据采集,支持Ajax网页采集
  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间
  • 动态字段抽取与静态字段植入
  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据
  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词
  • 含有相关文章推荐,文章中人物、地点之间的关联关系分析

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集.
不需要进行任何编码就可以完成一个功能强大的爬虫.

Windows/Mac/Linux 全平台支持

本系统需要如下依赖:

  • JDK 8 及以上
  • Tomcat 8.3 及以上

可选依赖组件:

 - Elasticsearch 5.0

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

联系我

邮箱: 63388@qq.com

Main metrics

Overview
Name With Ownergsh199449/spider
Primary LanguageJava
Program languageJava (Language Count: 2)
Platform
License:GNU General Public License v3.0
所有者活动
Created At2016-11-24 01:48:03
Pushed At2018-08-21 05:26:31
Last Commit At2017-05-21 23:40:34
Release Count8
Last Release NameV0.6 (Posted on 2017-05-16 19:13:43)
First Release NameV0.1 (Posted on )
用户参与
Stargazers Count1k
Watchers Count122
Fork Count484
Commits Count104
Has Issues Enabled
Issues Count28
Issue Open Count4
Pull Requests Count4
Pull Requests Open Count0
Pull Requests Close Count1
项目设置
Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private