网站大量收购闲置独家精品文档,联系QQ:2885784924

词义消歧学士论文.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
词义消歧学士论文

青岛科技大学本科毕业设计(论文) 前言 最早的自然语言处理方面的研究工作是机器翻译。1949 年,美国人威弗首先提出了机 器翻译设计方案。20 世纪60 年代,国外对机器翻译曾有大规模的研究工作,耗费了巨额 费用,但人们当时显然是低估了自然语言的复杂性,语言处理的理论和技术均不成热,所 以进展不大。90 年代随着计算机的飞速发展,计算机已成为辅助人类认识和改变世界最为 强大的工具之一,大规模真是文本语料库的研制成为可能,统计模型的自然语言处理得到 发展,但是由于真是的自然语言趋于无限性,导致统计模型在达到一定程度后受到了限制。 词义消歧是自然语言处理的基础性研究之一,也是机器翻译、机器理解的核心功能之 一。词义消歧的数学目的就是将多维度序列中选择合适的序列使得序列能够传递最真是的 信息。词义的消歧模型也从规则方法演变到统计方法,随着知识库,决策树等基础性的研 究的发展,词义消歧的准确率也在提高。 本文通过阐述自然语言处理中的基本知识,建立一种基于贝叶斯模型的扩展模型,通 过对传统贝叶斯增广模型的探究,提出抽象分类增广模型,给出抽象分类的理论依据,设 计模型,并用假文本验证。最后对研究进行总结,提出语言信息量的量子化模型及翻译的 交叉输出模型。 1 自然语言处理中词义消歧的研究 1 自然语言处理机词义消歧的基本知识 1.1 自然语言处理 1.1.1 什么是自然语言处理 语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人 类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分 知识也是以语言文字的形式记载和流传下来的。因而它也是人工智能的一个重要,甚至核 心部分。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际 意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再 花大量的时间和精力去学习和习惯各种计算机语言;人们也可通过它进一步了解人类的语 言能力和智能的机制。 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自 然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。 因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语 言理解研究得较多,而对自然语言生成研究得较少,但这种状况已有所改变。 无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而 是十分困难的。从现有的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然 是较长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出 现,有些已商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语 言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。 一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字可组 成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、节、章、篇。无论 在上述的各种层次:字(符)、词、词组、句子、段,„„还是在下一层次向上一层次转 变中都存在着歧义和多义现象,即形式上一样的一段字符串,在不同的场景或不同的语境 下,可以理解成不同的词串、词组串等,并有不同的意义。一般情况下,它们中的大多数 都是可以根据相应的语境和场景的规定而得到解决的。也就是说,从总体上说,并不存在 歧义。这也就是我们平时并不感到自然语言歧义,和能用自然语言进行正确交流的原因。 但是一方面,我们也看到,为了消解歧义,是需要极其大量的知识和进行推理的。如何将 这些知识较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统 中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。这不是 少数人短时期内可以完成的,还有待长期的、系统的工作。 以上说的是,一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自 然语言理解中的主要困难和障碍。反过来,一个相同或相近的意义同样可以用多个中文文 本或多个汉字串来表示。 2

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档