基于最小语言学资源资源受限领域命名实体识别.PDF

基于最小语言学资源资源受限领域命名实体识别.PDF

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于最小语言学资源资源受限领域命名实体识别

基于最小语言学资源的资源受限领域命名实体识别 涂兆鹏 姜文斌 刘群 林守勋 廖剑 吴克文 智能信息重点实验室 B2B 国际站算法组 计算技术研究所,中国科学院 阿里巴巴(中国)网络技术有限公司 {tuzhaopeng,jiangwenbin, liuqun, sxlin}@ {jian.liaoj, kewen.wukw}@ 提高最终的翻译性能(Jiang et al., 2007; Zhao et 摘要 al., 2008; Yang et al., 2008) 。 如何在资源匮乏的大规模数据(如互联 如何识别存在大规模生语料、资源匮乏领 网纯文本数据)上识别命名实体是一个 域的命名实体,也引起了广大研究者的兴趣。 重要的问题。为解决该问题,我们使用 如果人工标注大规模的数据,将是一个极其消 简单的词典资源自动标注数据,然后将 耗人力和物力的工作,很不现实。传统的做法 命名识别问题转化为基于最大熵马尔可 是使用人工维护的词典或者使用规则方法识别 夫模型的序列标注问题。我们使用两种 网络数据中的命名实体。但是,互联网数据中 方法搜索结果:1)输出标注序列,并使 的命名实体具体如下特点: 用重排序方法对 k-best 结果进行重排 1. 新出现的命名实体多。在互联网中,由于 序;2 )使用变种的前向-后向算法计算 新名词层出不穷,所以出现了很多与之相 出候选命名实体的概率,并使用阈值过 关的新的命名实体。使用词典方法无法识 滤。实验表明,使用后种方法可以极大 别这些新词,而且人工维护词典也需要很 地提高命名实体识别的召回率和 F 值, 高的人力成本。 并可以更加灵活地根据需求控制准确率 与召回率。 2. 形式灵活多变。命名实体识别任务的困难 之处在于歧义问题,即一个单词可能出现 在命名实体的不同位置。比如电商领域 1 引言 中,单词 screen 可以出现在命名实体的不 命名实体,是指人名、机构名、产品名以 同位置: 及其他所有以名称为标识的实体。当前主流的 (a) screen guard mirror for iphone4S 命名实体识别方法都是使用有监督的机器学习 (b) large touch screen panel 方法,依赖人工标注好的训练语料。随着互联 (c) high quality led advertising screen 网的发展,涌现了越来越多的网页数据。识别

您可能关注的文档

文档评论(0)

shaofang00 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档