python-boilerpipe

A python wrapper for Boilerpipe, an excellent Java library for boilerplate removal and fulltext extraction from HTML pages.

Configuration

Dependencies:

jpype
chardet

The boilerpipe jar files will get fetched and included automatically when building the package.

Installation

Checkout the code:

git clone https://github.com/misja/python-boilerpipe.git
cd python-boilerpipe

virtualenv

virtualenv env
source env/bin/activate
pip install -r requirements.txt
python setup.py install

Fedora

sudo dnf install -y python2-jpype
sudo python setup.py install

Usage

Be sure to have set JAVA_HOME properly since jpype depends on this setting.

The constructor takes a keyword argment extractor, being one of the available boilerpipe extractor types:

DefaultExtractor
ArticleExtractor
ArticleSentencesExtractor
KeepEverythingExtractor
KeepEverythingWithMinKWordsExtractor
LargestContentExtractor
NumWordsRulesExtractor
CanolaExtractor

If no extractor is passed the DefaultExtractor will be used by default. Additional keyword arguments are either html for HTML text or url.

from boilerpipe.extract import Extractor
extractor = Extractor(extractor='ArticleExtractor', url=your_url)

Then, to extract relevant content:

extracted_text = extractor.getText()

extracted_html = extractor.getHTML()

For KeepEverythingWithMinKWordsExtractor we have to specify kMin parameter, which defaults to 1 for now:

extractor = Extractor(extractor='KeepEverythingWithMinKWordsExtractor', url=your_url, kMin=20)

名稱與所有者	KotlinCraft/modern-java-and-kotlin-tutorials
主編程語言	Java
編程語言	Python (語言數: 2)
平台
許可證	Apache License 2.0

名稱與所有者

KotlinCraft/modern-java-and-kotlin-tutorials

主編程語言

Java

編程語言

Python (語言數: 2)

平台

許可證

Apache License 2.0

創建於	2016-03-11 20:54:11
推送於	2020-06-26 16:05:28
最后一次提交	2020-06-26 16:05:21
發布數	0

創建於

2016-03-11 20:54:11

推送於

2020-06-26 16:05:28

最后一次提交

2020-06-26 16:05:21

發布數

星數	205
關注者數	33
派生數	75
提交數	52
已啟用問題?
問題數	2
打開的問題數	0
拉請求數	2
打開的拉請求數	0
關閉的拉請求數	0

星數

205

關注者數

派生數

提交數

已啟用問題?

問題數

打開的問題數

拉請求數

打開的拉請求數

關閉的拉請求數

已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?

已啟用Wiki?

已存檔?

是復刻?

已鎖定?

是鏡像?

是私有?

python-boilerpipe

Github星跟蹤圖

python-boilerpipe

Configuration

Installation

Usage

主要指標