weixin_public_corpus

微信公众号语料库

Github星跟踪图

微信公众号语料库

部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。

数据用zip分卷压缩过的, 没有密码。预览可以看preview.json。

目前数据大约3G,数据会定期更新增加。

请只用于研究用途。

有问题或者特殊需求直接建Issue。

linsun84@gmail.com

欢迎志同道合的小伙伴加入校宝一起来搞有意思的事情!https://www.xiaobaoonline.com/pc/contactjoin

主要指标

概览
名称与所有者nonamestreet/weixin_public_corpus
主编程语言
编程语言 (语言数: 0)
平台
许可证
所有者活动
创建于2016-05-06 05:03:05
推送于2019-01-07 06:20:57
最后一次提交2019-01-07 14:20:57
发布数0
用户参与
星数583
关注者数35
派生数165
提交数19
已启用问题?
问题数7
打开的问题数0
拉请求数0
打开的拉请求数0
关闭的拉请求数0
项目设置
已启用Wiki?
已存档?
是复刻?
已锁定?
是镜像?
是私有?