pspider

纯 PHP 开发的并行抓取工具 (Parallel web crawler written in PHP)

  • 所有者: hightman/pspider
  • 平台:
  • 許可證:
  • 分類:
  • 主題:
  • 喜歡:
    0
      比較:

Github星跟蹤圖

PHP - spider 框架

这是最近使用纯 php 代码开发的并行抓取(爬虫)框架,基于 hightman\httpclient 组件。

您必须先装有 composer,然后在项目里先运行以下命令下载组件:

composer install

使用 pspider

这里头的 URL 表管理需要 MySQLi 扩展支持,表结构和自定义的内容参见自定义文件。

  1. 复制 custom/skel.inc.phpcustom/your.inc.php
  2. 根据说明修改 custom/your.inc.php
  3. 根据 custom/your.inc.php 里的注释创建 mysql 的 URL 表
  4. 运行 spider.php -u http://... 即可开始循环抓取
  5. UrlTable 的实现很简单仅作示例,具体可自行重做

主要指標

概覽
名稱與所有者hightman/pspider
主編程語言PHP
編程語言PHP (語言數: 1)
平台
許可證
所有者活动
創建於2013-03-08 08:47:47
推送於2015-09-16 09:21:38
最后一次提交2015-09-15 18:13:19
發布數0
用户参与
星數265
關注者數40
派生數110
提交數32
已啟用問題?
問題數5
打開的問題數1
拉請求數1
打開的拉請求數0
關閉的拉請求數0
项目设置
已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?