ansj_seg

ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

  • Owner: NLPchina/ansj_seg
  • Platform:
  • License:: Apache License 2.0
  • Category::
  • Topic:
  • Like:
    0
      Compare:

Github stars Tracking Chart

Ansj中文分词

1.X Build Status Gitter

#####使用帮助 : 3.x版本及之前 , 5.x版本及之后 在线测试地址 : http://demo.nlpcn.org

摘要

这是一个基于n-Gram+CRF+HMM的中文分词的java实现.

分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上

目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能

可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.

下载jar
  • 访问 http://maven.nlpcn.org/org/ansj/ 最好下载最新版 ansj_seg/
    • 同时下载nlp-lang.jar 需要和ansj_seg 配套..配套关系可以看jar包中的maven依赖,一般最新的ansj配最新的nlp-lang不会有错。
  • 导入到eclipse ,开始你的程序吧
maven
        
        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>
    
调用demo

如果你第一次下载只想测试测试效果可以调用这个简易接口

Join Us

心思了很久,不管有没有人帮忙把。我写上来,如果你有兴趣,有热情可以联系我。

  • 补充文档,增加调用实例和说明
  • 增加一些规则性Recognition,举例身份证号码识别,目前未完成的有 时间识别IP地址识别邮箱识别,网址识别词性识别等...
  • 提供更加优化的CRF模型。替换ansj的默认模型。
  • 补充测试用例,n多地方测试不完全。如果你有兴趣可以帮忙啦!
  • 重构人名识别模型。增加机构名识别等模型。
  • 增加句法文法分析
  • 实现lstm的分词方式
  • 拾遗补漏...

Main metrics

Overview
Name With OwnerNLPchina/ansj_seg
Primary LanguageJava
Program languageJava (Language Count: 1)
Platform
License:Apache License 2.0
所有者活动
Created At2012-09-05 05:56:24
Pushed At2023-11-19 06:15:23
Last Commit At2023-10-14 22:38:52
Release Count3
Last Release Name3.7.5 (Posted on )
First Release Name1.1 (Posted on )
用户参与
Stargazers Count6.5k
Watchers Count653
Fork Count2.3k
Commits Count707
Has Issues Enabled
Issues Count710
Issue Open Count46
Pull Requests Count60
Pull Requests Open Count7
Pull Requests Close Count26
项目设置
Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private