weixin_public_corpus

微信公众号语料库

Github星跟蹤圖

微信公众号语料库

部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文。

数据用zip分卷压缩过的, 没有密码。预览可以看preview.json。

目前数据大约3G,数据会定期更新增加。

请只用于研究用途。

有问题或者特殊需求直接建Issue。

linsun84@gmail.com

欢迎志同道合的小伙伴加入校宝一起来搞有意思的事情!https://www.xiaobaoonline.com/pc/contactjoin

主要指標

概覽
名稱與所有者nonamestreet/weixin_public_corpus
主編程語言
編程語言 (語言數: 0)
平台
許可證
所有者活动
創建於2016-05-06 05:03:05
推送於2019-01-07 06:20:57
最后一次提交2019-01-07 14:20:57
發布數0
用户参与
星數583
關注者數35
派生數165
提交數19
已啟用問題?
問題數7
打開的問題數0
拉請求數0
打開的拉請求數0
關閉的拉請求數0
项目设置
已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?