- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文命名实体识别及关系提取初中教育精选.ppt
如何匹配上下文 在没有标注语料的情况下,采用了自定义规则,因为从训练语料来看,新闻题材中需要上下文匹配的情况较少,而且特点比较一致。 匹配的上下文形式化: 作用方向:是NS在前,NT在后,还是反之。 作用域:0:一个句子,不可有其他实体打断 1:NS之后全文 (新华社北京讯) 2:NS之前全文 (记者北京报道) 上文,中间,下文:正则表达式,上下文只用一个窗口,中间的文字去掉无用词,只保留名词和动词。 * 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 分词本身有错误率,所以降低了识别率。 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 初中教育精选 中学教育精选 中文命名实体识别及关系提取 *** *** *** 中文命名实体识别 语料:人民日报1998年版 主要方法:根据训练预料,利用CRF进行机器学习 * 中文命名实体识别 标注集1:由字构词 将{ ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为O Example: * 中文命名实体识别 词缀标记 PSsur:人名的姓,比如“王” PSsuf:人名的后缀,比如“先生” Lsuf: 地名的后缀,比如“省”,“特区”,“地区” Osuf: 组织名的后缀,比如“委员会”,“公司” 原因:中文偏正关系 *为什么将词缀放到机器学习的标记中而不是用于结果修正? 后缀容易识别,但是向前匹配的位置难于确定,比如“上海IBM研究院”。 * 训练模板 字的特征识别: w[-1,0]:前一个字 w[0,0] w[1,0] w[-1,0]/w[0,0]:前面一个字和当前字的组合 w[0,0]/w[1,0] , w[-1,0]/w[1,0] 词缀特征识别: w[-1,1]:前一个字的词缀 w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1] * 测试结果 测试方法: 将训练集拆分,80%用于训练,20%用于测试(200篇左右) 测试结果: Recall Precision F-score NR 81.6% 961/1178 92.6% 884/961 86.7% NS 84.4% 1362/1613 88.8% 1190/1362 86.6% NT 85.2% 538/631 90.7% 483/538 87.9% * 校正 考虑到没有充分利用分词结果 Error:{张牙舞/nr}爪 ===》利用分词结果可以校正 校正方法:如果命名实体不是由完整的几个词组成的,判错 校正结果: Recall Precision F-score NR 79.3% 935/1178 95.5% 891/935 86.7% NS 82.5% 1331/1613 89.8% 1180/1331 86.0% NT 85.1% 537/631 91.2% 485/537 88.0% * 一些问题 为什么没有在标记集中加入分词信息的一列 Example:江 PSsur B B nr-B 泽 UN B1 nr-B1 民 UN E nr-E 主 PSsuf B O 席 PSsuf E O 1) 训练时间过长,内存消耗过大。 如果训练在可接受的时间内,增大训练语料比多增加分词信息有效得多。 2)分词和命名实体标注可以映射为一列,没必要增加一个维度。比如主 PSsuf O-B。实验数据显示,性能没有任何变化。 * 如何获得词缀信息 1)从训练语料中抽取所有的命名实体,然后计算频率,然后抽取所有词的后缀,然后计算频率,取频率高的。 2)手动检查是否添加了无用的后缀,比如“上海市”在训练语料出现很多次,提取后缀会出现“海市”为一个高频率后缀,这些需要特殊处理。 * 其它问题 为什么没有引入词性信息? 1)一般的词性标注的准确率在90%左右,而且人民日报语料的标注词性比较多,有40+种,准确率要比90%低一些。 2)命名实体的准确率在90%以上,已经比词性标注要高了。 3)对于命名实体的Recall提升的话,词性标注没有明显的帮助办法,换句话说词性对于判错还有些用,但
原创力文档


文档评论(0)