中文命名实体识别与关系提取.pptVIP

下载本文档

13
0
约2.9千字
约 18页
2018-06-06 发布于江苏
举报

中文命名实体识别与关系提取.ppt

中文命名实体识别与关系提取

中文命名实体识别及关系提取 *** *** *** 中文命名实体识别语料：人民日报1998年版主要方法：根据训练预料，利用CRF进行机器学习中文命名实体识别标注集1：由字构词将{ ns,nr,nt}三种实体类型，和分词中的词位信息{B,B1,B2,M,E,S}做组合，其它字标记为O Example: 中文命名实体识别词缀标记 PSsur：人名的姓，比如“王” PSsuf：人名的后缀，比如“先生” Lsuf：地名的后缀，比如“省”，“特区”，“地区” Osuf：组织名的后缀，比如“委员会”，“公司” 原因：中文偏正关系 *为什么将词缀放到机器学习的标记中而不是用于结果修正？后缀容易识别，但是向前匹配的位置难于确定，比如“上海IBM研究院”。训练模板字的特征识别： w[-1,0]:前一个字 w[0,0] w[1,0] w[-1,0]/w[0,0]:前面一个字和当前字的组合 w[0,0]/w[1,0] , w[-1,0]/w[1,0] 词缀特征识别： w[-1,1]:前一个字的词缀 w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1] 测试结果测试方法：将训练集拆分，80%用于训练，20%用于测试(200篇左右) 测试结果： Recall Precision F-sco

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文命名实体识别与关系提取.pptVIP