weixin_public_corpus

微信公众号语料库

Github stars Tracking Chart

微信公众号语料库

部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。

数据用zip分卷压缩过的, 没有密码。预览可以看preview.json。

目前数据大约3G,数据会定期更新增加。

请只用于研究用途。

有问题或者特殊需求直接建Issue。

linsun84@gmail.com

欢迎志同道合的小伙伴加入校宝一起来搞有意思的事情!https://www.xiaobaoonline.com/pc/contactjoin

Main metrics

Overview
Name With Ownernonamestreet/weixin_public_corpus
Primary Language
Program language (Language Count: 0)
Platform
License:
所有者活动
Created At2016-05-06 05:03:05
Pushed At2019-01-07 06:20:57
Last Commit At2019-01-07 14:20:57
Release Count0
用户参与
Stargazers Count583
Watchers Count35
Fork Count165
Commits Count19
Has Issues Enabled
Issues Count7
Issue Open Count0
Pull Requests Count0
Pull Requests Open Count0
Pull Requests Close Count0
项目设置
Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private