Company-Names-Corpus

公司名语料库。机构名语料库。公司简称,缩写,品牌词,企业名。

Github stars Tracking Chart

公司名语料库(Company-Names-Corpus)

业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。

不定期更新。只删词,不加词。

可用于中文分词、机构名识别。


公司名语料库(Company-Names-Corpus)

数据大小:480万。

语料来源:多个词典汇总。

数据清洗:已清洗,但仍存有大量badcase。


机构名语料库(Organization-Names-Corpus)

数据大小:110万。

语料来源:多个词典汇总。

数据清洗:已清洗,但仍存有大量badcase。


公司简称、品牌词等(Company-Shorter-Form)

数据大小:28万。

语料来源:多个词典汇总。

数据清洗:已清洗,但仍存有大量badcase。


为什么是压缩包:

未压缩的文件有200多M,压缩后只有30M左右,我网速不好,就先压为敬。


请勿提交涉政issue:

惹不起呀,谢谢~

语料中还存有的,会在后续的更新中逐步删除掉。


更新时间:

删除了3000余非公司名。 -2018.10.31

新增了10万公司简称、品牌词。 -2018.12.30

新增了28万公司简称、品牌词。 -2019.03.23

删除了2万余质量不高的公司名、机构名。 -2019.04.15

删除了3000余非公司名。 -2019.07.27

删除了2万余质量不高的公司名、机构名。 -2019.12.25


@萌名NameMoe 整理

2019.12.25

Overview

Name With Ownerwainshine/Company-Names-Corpus
Primary Language
Program language (Language Count: 0)
Platform
License:Apache License 2.0
Release Count5
Last Release NameV1.4 (Posted on )
First Release NameV1.0 (Posted on )
Created At2018-10-10 01:42:55
Pushed At2024-03-27 04:57:45
Last Commit At2024-03-27 12:57:40
Stargazers Count1.2k
Watchers Count48
Fork Count374
Commits Count46
Has Issues Enabled
Issues Count5
Issue Open Count3
Pull Requests Count1
Pull Requests Open Count0
Pull Requests Close Count0
Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private
To the top