ansj_seg

ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

  • 所有者: NLPchina/ansj_seg
  • 平台:
  • 許可證: Apache License 2.0
  • 分類:
  • 主題:
  • 喜歡:
    0
      比較:

Github星跟蹤圖

Ansj中文分词

1.X Build Status Gitter

#####使用帮助 : 3.x版本及之前 , 5.x版本及之后 在线测试地址 : http://demo.nlpcn.org

摘要

这是一个基于n-Gram+CRF+HMM的中文分词的java实现.

分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上

目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能

可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.

下载jar
  • 访问 http://maven.nlpcn.org/org/ansj/ 最好下载最新版 ansj_seg/
    • 同时下载nlp-lang.jar 需要和ansj_seg 配套..配套关系可以看jar包中的maven依赖,一般最新的ansj配最新的nlp-lang不会有错。
  • 导入到eclipse ,开始你的程序吧
maven
        
        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>
    
调用demo

如果你第一次下载只想测试测试效果可以调用这个简易接口

Join Us

心思了很久,不管有没有人帮忙把。我写上来,如果你有兴趣,有热情可以联系我。

  • 补充文档,增加调用实例和说明
  • 增加一些规则性Recognition,举例身份证号码识别,目前未完成的有 时间识别IP地址识别邮箱识别,网址识别词性识别等...
  • 提供更加优化的CRF模型。替换ansj的默认模型。
  • 补充测试用例,n多地方测试不完全。如果你有兴趣可以帮忙啦!
  • 重构人名识别模型。增加机构名识别等模型。
  • 增加句法文法分析
  • 实现lstm的分词方式
  • 拾遗补漏...

主要指標

概覽
名稱與所有者NLPchina/ansj_seg
主編程語言Java
編程語言Java (語言數: 1)
平台
許可證Apache License 2.0
所有者活动
創建於2012-09-05 05:56:24
推送於2023-11-19 06:15:23
最后一次提交2023-10-14 22:38:52
發布數3
最新版本名稱3.7.5 (發布於 )
第一版名稱1.1 (發布於 )
用户参与
星數6.5k
關注者數653
派生數2.3k
提交數707
已啟用問題?
問題數710
打開的問題數46
拉請求數60
打開的拉請求數7
關閉的拉請求數26
项目设置
已啟用Wiki?
已存檔?
是復刻?
已鎖定?
是鏡像?
是私有?