# Distant-Supervised-Chinese-Relation-Extraction
基于远监督的中文关系抽取
数据集构建
- 中文通用知识库CN-DBpedia
- 远监督假设
处理流程可在 kg_data/README.md 中查看。点击此处(谷歌云盘)下载处理后的数据子集。
模型选择
使用 thunlp/OpenNRE 的模型, 具体信息参考其说明。
源链接: https://github.com/thunlp/OpenNRE
运行代码
数据集文件目录代码默认为 data/chinese,在命令中运行:
python train_demo.py chinese pcnn att
模型结果
部分关系的结果如下:
类别, 精准度, 召回率, F1分数
:-:, :-:, :-:, :-:
全部, 0.95428, 0.95036, 0.95232
/人物/其它/民族, 0.98374, 0.979, 0.98137
NA, 0.96853, 0.97824, 0.97336
/人物/地点/国籍, 0.84075, 0.92673, 0.88164
/组织/地点/位于, 0.85157, 0.83652, 0.84398
/人物/其它/职业, 0.86121, 0.8037, 0.83147
/人物/组织/毕业于, 0.84137, 0.78092, 0.81002
/组织/人物/校长, 0.94118, 0.59259, 0.72727
/人物/地点/出生地, 0.81049, 0.49028, 0.61097
/人物/人物/家庭成员, 0.65385, 0.37778, 0.47887
/人物/组织/属于, 0.99999, 0.11364, 0.20408
/地点/地点/包含, 0.99999, 0.0625, 0.11765
/组织/人物/创始人, 0.99999, 0.05882, 0.11111
某些关系的召回率很低,分析发现原因可能是数据集中该关系的样本非常少。
模型改进
未完待续