基于转换基本名词短语识别.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于转换的基本名词短语识别 基于转换的基本名词短语识别 游斓 摘要: 在自然语言信息处理领域 名词短语的正确识别有着重要的作用 本文所讨论的是英 语基本名词短语的识别 其识别知识包括内部知识和外部知识两部分 内部知识是指构成基 本名词短语的词串的属性 本文中主要指短语的词性构成 外部知识是指基本名词短语所 在的上下文环境 笔者结合这两种知识设计了一个基于转换的基本名词短语识别器 可以获 得 90% 以上的识别率 关键词 基本名词短语 短语识别 语料库 Abstract: NP chunking is useful in the field of natural language processing. In this paper, English base-NP chunking is discussed. To identify base-NP, some linguistic knowledge is needed. The knowledge includes two parts: one is called inside knowledge, which is about the characteristic of the words that compose the base-NP; the other is called outside knowledge, which is about the context of the base-NP. These two kinds of knowledge were combined to design a transformation-based system to identify base-NP, whose accuracy was over 90 percent. Key words: base-NP chunking corpus 一 引言 1.1 短语识别的应用 在自然语言处理领域 短语的识别对机器翻译 自动索引 文本检索 信息抽取和文本 分类等应用领域有重要作用 首先 短语具有更丰富的语义 且它不能简单地由短语的成分 词来表示 例如英文中由动词和介词 小品词 副词 等组成的短语 其次 许多专有词汇 本身就是以短语的形式存在 如“ 自然语言处理”和“最惠国待遇”等 而专有词汇在真实文本 中是大量存在的 另外 和词汇相比 短语的歧义性要小得多 因此 在大规模文本处理中 若能用短语而不是词汇来表示文本 就更能反映文本的语义 基本名词短语识别在问题回答系统 QA 中也起到重要的作用 QA 任务目前只要求 回答基于事实类型的问题 对于这类问题 先做问题分析 通过问题分析 试图找到期望答 案类型 关键词和核心概念 在问题分析过程中如果关键词切得太小 会找到许多无关的答 案 而切得太大 会漏掉很多正确答案 切错了 就根本找不到答案 如果搜索引擎找不到 答案 会影响后续的答案分析模块 有些时候 通过分析问题句子中的大小写并不能正确切 分名词短语 而使用非嵌套的基本名词短语识别 就可以较完美地解决这个问题 在问题句 词性标记正确的基础上 应用名词短语识别获取关键词的准确率达到 90 以上 [吴立德 01] 1.2 已有的短语识别方法 短语识别的方法有很多 有些研究者使用句法分析的方法 比如 Bourigaultyu 于 1992 年针对法语文本设计的抽取专用术语的系统 他先从文本中找出最大长度名词短语 再运用 语法知识抽取术语 还有 Voutilainen 于 1993 设计的 NPtool 系统 他在识别名词短语的时候 用到了单词的词性标注 也有些研究者使用统计的方法来识别短语 比如 Church 于 1988 年在他的 Par

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档