基于转换学习的词性标注研究-计算机应用技术专业论文.docxVIP

基于转换学习的词性标注研究-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3 3 太原理 工大学硕士研究生学位论文 领域,尤其是无指导和半指导的机器学习方法。其中就包括了词性标注这一领域,主要 原因有两个方面 : 1) 在很多自然语言处理的方法中 ,特别是基于统计模型的方法 ,加标的训练语料 是处理的基础。而训练语料人工加标是错要在极强的专家知识下耗费大量的人力物力, 需要高速处理能力的机器来完成的。 2) 网络规模的指数级增长所形成的高连发展,给自然语言处理带来机遇的同时也 带来了挑战,网络中的内容源源不断的给自然谣言处理带来真实的数据,同时又产生着 新的数据。 在机器学习理论的强大推动之下,词类标注 (POS) 在许多领域有了新的需求,并 且 能够得到相当的应用。例如在汉英词典编篡时,准确的词类识别是双语词典准确译义 的重要前提。有人对词类如何标注的依据进行了深入调查,在英以辞典的对译过程中发 现,词类识别标注和识别现状对汉英辞典译义的 准确性有一定的影响。并 且调查还发现 , 在词目意译时英汉辞典基本遵守词类对译的原则,在这原则指 导下可以用计算机帮 助人们进行词典编篡。 词类问题作为整个语法 学的基础,就必定要放在语法环境中去研究 e 而语法研究史 对词法的研究有很深的影响。新世纪以来,我国的经济有 了迅猛的发展, 2001 年加入 WTO 之后 ,国际之间的交流和合作也 H 益增强 ,为了R世界接轨, 国人便更需要学习 外语了。 Robinsl31经过大量实验结果表明 ,语法学 习对那些母语 学习者的作用并不明显, 但是对于外语的学习却十分显著。因此,语法是与 外语学习密切相关的。他还指出,人 们在接触外 国人的同时对自身语言觉悟有 一定的增强作用,而语 法往往是在外语的学习 时它的作用才得以凸显。就跟人 与空气一样,平常感受不到,只有在水中的时候才体会 出它的重要性。因此,词汇词性的学习对语法的研究是不 言而H命的。 由于词性标注是自然;语言- 洗层处理环节的重要 一组成部分 ,最主要的作用在于为像 语法语义分析等高层处理环节提供有信息标识的数据 ,也就是前文况 到的标注 语料库。 简单的语法解析器仅可以处理单个句子中的少量词汇,高级 一 点的解析器可以进行跨句 分析,找出一个长难句中分 {t在各个分句中的句法和语法结构信息。信息抽取也是 词性 标注的一个重要应用 ,也就是寻找语言模板中预定义规则?缺项中的值,类 似于造句填 空。譬如 :在天气预报时 的模板语句中,有天气 状况、风力 、温度、 位晋、 时 町等状态 描边的空位,词类标注和局部句法分析就可以帮助系统去识别可以作为空缺位的词汇豆豆 PAGE PAGE 6 太原理 1:人学硕士研究生学位论文 短语,以及它们之间 的浩浩关系。词性标注还 能在信息检索中找到适合的索引词,例如 在基本名词短语 (baseNP)上的识别可以在很大程度 上提升信息检索 的性能。可 以看出, 词性标注不但可以为自然语言处理的高层处理提供基 础支持还 可以在一些只需要浅层 词法规则的 应用中发挥直接的 作用。 国内外很多的研究机构 正是看到词性标注的这些特 点和应用,对它投入了大量的精力,也取 得 了许多有意义的成果。 词性标注是自然;语言处理中的 一个基本 问题,同时也是机器翻译系统中的 一项基础 工作。词性标注的 正确率如何 ,直接影响到句法分析 等系统后续问题 的解决。基于规则 的方法虽然有很多优势,但也存在 一些问题,因为词性标注规则是由语言学家根据语言 规律进行人 工书写完成的,这就使得规则的编 写不仅费时费力,而且容易出现规则冲突、 规则不完备等问题 ,势必影响到标注 ?l二确率 的提高。 TBL 概述 1992 年,美国人 Eric 8rill[4J讨论 f 一些在I注未登隶坤的技术,展示了 一个通过 一个以 特殊语料库 为基础的学习样,例并从中提取规则的方法,他把这种方法称为 T8L (Trans[ormalion-8as d L aming )。边过学习的规则来猜测那些没有在语 料库 中出现的 单词的词性, BrilJ 通过对这些低频率单词的观察,从而精确给每 个单 词 - -个 口气确的标 注。 出于 T8L 最初是应用在 iiiJ性标注这一自然语言处理领域,后来,各国的科学家根 据远 一算洁的特点将官应用到自然语 言 处理 (NLP)向题的大多数领域,也达到了 一定的 效果。本文将会在第三章对 TBL 算法做详细介 绍。 1.2 国内外研究的历史和现状 1 .2.1 国外研究状况 TBL 的 全称是基于转 换的错 误驱动的学习 (Tansformaton-Based Error-Driven Learning),是机器学习领域一个靠自动学习规 则的方法。首先由 Eric Brill 在他 的博士论 文中给出了这种方法

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档