LSTM-CRF-medical

构建医疗实体识别的模型,包含词典和语料标注,基于python构建

  • Owner: yixiu00001/LSTM-CRF-medical
  • Platform:
  • License::
  • Category::
  • Topic:
  • Like:
    0
      Compare:

Github stars Tracking Chart

LSTM-CRF-medical

构建医疗实体识别的模型,包含词典和语料标注,基于python构建

数据集合标注

数据集合标注可以基于词典,通过最大匹配获得实体位置,然后标注实体类型。

词典构造

目前构造的词典包括疾病词典、症状词典和身体部位词典。疾病词典包括互联网爬取的疾病名称、疾病别名、ICD10疾病名称,去重后共39615条数据;症状为互联网爬取的症状描述,去重后共7457条数据;身体部位为互联网爬取的身体部位描述,去重后共1929条数据。示例如下:

疾病名称:1型糖尿病性急性牙周脓肿,妊娠合并系统性红斑狼疮,结石性胆囊炎,药物性股骨坏死,晚期梅毒性脉络膜炎,腹型过敏性紫癜

症状:胀痛,耳后长包,睡觉流口水,鼻塞,粉红色泡沫样痰,孕妇气喘,痔疮便血,头昏眼花

身体部位:鼻唇沟,鼻处,鼻子,鼻子尖,鼻孔,鼻尖,鼻窦软骨,鼻翼,鼻黏膜

实体检索

选取了ICD10中的5000条疾病描述,根据已有词典进行实体的最大匹配。

以疾病为例,对于输入的疾病描述进行规范化,去掉空格、换行符,去掉无意义的句头和句尾字词等。

对规范化的句子,使用词典中的每个词进行全匹配,记录匹配的词、词的起始index、词的结束index和实体类型。

Main metrics

Overview
Name With Owneryixiu00001/LSTM-CRF-medical
Primary LanguageJupyter Notebook
Program languageJupyter Notebook (Language Count: 3)
Platform
License:
所有者活动
Created At2018-01-24 09:23:56
Pushed At2018-01-25 02:15:58
Last Commit At2018-01-25 09:36:33
Release Count0
用户参与
Stargazers Count342
Watchers Count13
Fork Count107
Commits Count5
Has Issues Enabled
Issues Count4
Issue Open Count2
Pull Requests Count0
Pull Requests Open Count0
Pull Requests Close Count0
项目设置
Has Wiki Enabled
Is Archived
Is Fork
Is Locked
Is Mirror
Is Private