python-boilerpipe

A python wrapper for Boilerpipe, an excellent Java library for boilerplate removal and fulltext extraction from HTML pages.

Configuration

Dependencies:

jpype
chardet

The boilerpipe jar files will get fetched and included automatically when building the package.

Installation

Checkout the code:

git clone https://github.com/misja/python-boilerpipe.git
cd python-boilerpipe

virtualenv

virtualenv env
source env/bin/activate
pip install -r requirements.txt
python setup.py install

Fedora

sudo dnf install -y python2-jpype
sudo python setup.py install

Usage

Be sure to have set JAVA_HOME properly since jpype depends on this setting.

The constructor takes a keyword argment extractor, being one of the available boilerpipe extractor types:

DefaultExtractor
ArticleExtractor
ArticleSentencesExtractor
KeepEverythingExtractor
KeepEverythingWithMinKWordsExtractor
LargestContentExtractor
NumWordsRulesExtractor
CanolaExtractor

If no extractor is passed the DefaultExtractor will be used by default. Additional keyword arguments are either html for HTML text or url.

from boilerpipe.extract import Extractor
extractor = Extractor(extractor='ArticleExtractor', url=your_url)

Then, to extract relevant content:

extracted_text = extractor.getText()

extracted_html = extractor.getHTML()

For KeepEverythingWithMinKWordsExtractor we have to specify kMin parameter, which defaults to 1 for now:

extractor = Extractor(extractor='KeepEverythingWithMinKWordsExtractor', url=your_url, kMin=20)

名称与所有者	KotlinCraft/modern-java-and-kotlin-tutorials
主编程语言	Java
编程语言	Python (语言数: 2)
平台
许可证	Apache License 2.0

名称与所有者

KotlinCraft/modern-java-and-kotlin-tutorials

主编程语言

Java

编程语言

Python (语言数: 2)

平台

许可证

Apache License 2.0

创建于	2016-03-11 20:54:11
推送于	2020-06-26 16:05:28
最后一次提交	2020-06-26 16:05:21
发布数	0

创建于

2016-03-11 20:54:11

推送于

2020-06-26 16:05:28

最后一次提交

2020-06-26 16:05:21

发布数

星数	205
关注者数	33
派生数	75
提交数	52
已启用问题?
问题数	2
打开的问题数	0
拉请求数	2
打开的拉请求数	0
关闭的拉请求数	0

星数

205

关注者数

派生数

提交数

已启用问题?

问题数

打开的问题数

拉请求数

打开的拉请求数

关闭的拉请求数

已启用Wiki?
已存档?
是复刻?
已锁定?
是镜像?
是私有?

已启用Wiki?

已存档?

是复刻?

已锁定?

是镜像?

是私有?

python-boilerpipe

Github星跟踪图

python-boilerpipe

Configuration

Installation

Usage

主要指标