- 13
- 0
- 约2.9千字
- 约 18页
- 2018-06-06 发布于江苏
- 举报
中文命名实体识别与关系提取
中文命名实体识别及关系提取 *** *** *** 中文命名实体识别 语料:人民日报1998年版 主要方法:根据训练预料,利用CRF进行机器学习 中文命名实体识别 标注集1:由字构词 将{ ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为O Example: 中文命名实体识别 词缀标记 PSsur:人名的姓,比如“王” PSsuf:人名的后缀,比如“先生” Lsuf: 地名的后缀,比如“省”,“特区”,“地区” Osuf: 组织名的后缀,比如“委员会”,“公司” 原因:中文偏正关系 *为什么将词缀放到机器学习的标记中而不是用于结果修正? 后缀容易识别,但是向前匹配的位置难于确定,比如“上海IBM研究院”。 训练模板 字的特征识别: w[-1,0]:前一个字 w[0,0] w[1,0] w[-1,0]/w[0,0]:前面一个字和当前字的组合 w[0,0]/w[1,0] , w[-1,0]/w[1,0] 词缀特征识别: w[-1,1]:前一个字的词缀 w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1] 测试结果 测试方法: 将训练集拆分,80%用于训练,20%用于测试(200篇左右) 测试结果: Recall Precision F-sco
原创力文档

文档评论(0)