基于最小语言学资源资源受限领域命名实体识别.PDF

下载文档

1
0
约2.23万字
约 8页
2017-09-10 发布于江苏
举报
版权申诉
保障服务

基于最小语言学资源资源受限领域命名实体识别.PDF

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于最小语言学资源资源受限领域命名实体识别

基于最小语言学资源的资源受限领域命名实体识别涂兆鹏姜文斌刘群林守勋廖剑吴克文智能信息重点实验室 B2B 国际站算法组计算技术研究所，中国科学院阿里巴巴（中国）网络技术有限公司 {tuzhaopeng,jiangwenbin, liuqun, sxlin}@ {jian.liaoj, kewen.wukw}@ 提高最终的翻译性能(Jiang et al., 2007; Zhao et 摘要 al., 2008; Yang et al., 2008) 。如何在资源匮乏的大规模数据（如互联如何识别存在大规模生语料、资源匮乏领网纯文本数据）上识别命名实体是一个域的命名实体，也引起了广大研究者的兴趣。重要的问题。为解决该问题，我们使用如果人工标注大规模的数据，将是一个极其消简单的词典资源自动标注数据，然后将耗人力和物力的工作，很不现实。传统的做法命名识别问题转化为基于最大熵马尔可是使用人工维护的词典或者使用规则方法识别夫模型的序列标注问题。我们使用两种网络数据中的命名实体。但是，互联网数据中方法搜索结果：1）输出标注序列，并使的命名实体具体如下特点：用重排序方法对 k-best 结果进行重排 1. 新出现的命名实体多。在互联网中，由于序；2 ）使用变种的前向-后向算法计算新名词层出不穷，所以出现了很多与之相出候选命名实体的概率，并使用阈值过关的新的命名实体。使用词典方法无法识滤。实验表明，使用后种方法可以极大别这些新词，而且人工维护词典也需要很地提高命名实体识别的召回率和 F 值，高的人力成本。并可以更加灵活地根据需求控制准确率与召回率。 2. 形式灵活多变。命名实体识别任务的困难之处在于歧义问题，即一个单词可能出现在命名实体的不同位置。比如电商领域 1 引言中，单词 screen 可以出现在命名实体的不命名实体，是指人名、机构名、产品名以同位置：及其他所有以名称为标识的实体。当前主流的 (a) screen guard mirror for iphone4S 命名实体识别方法都是使用有监督的机器学习 (b) large touch screen panel 方法，依赖人工标注好的训练语料。随着互联 (c) high quality led advertising screen 网的发展，涌现了越来越多的网页数据。识别