- 1、本文档共94页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章 自然语言理解 本章将讨论 自然语言理解的概念、发展简史以及系统组成与模型等; 逐一研究语言的自动分析、句子的自动理解、语言的自动生成、机器翻译和语音识别等重要问题; 举例介绍自然语言理解系统。 8.1 语言及其理解的一般问题 8.1.1 语言和语言理解 语言是用于传递信息的表示方法、约定和规则的集合 语言由语句组成,每个语句又由单词组成; 组成语句和语言时,应遵循一定的语法与语义规则。 语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系。 语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。 词汇又可分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。 词又由词素构成,词素是构成词的最小的有意义的单位。 语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。 用词素构成词的规则叫构词规则。 构造词形的规则称为构形法。 构形法和构词法称为词法。 句法可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则。造句法则是用词或词组造句的规则。 语言的构成 语言是音义结合的,每个词汇有其语音形式。 一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。 音素是指一个发音动作所构成的最小的语音单位。 从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: (1)回答有关提问; (2)提取材料摘要; (3)不同词语叙述; (4)不同语言翻译。 自然语言理解的困难是由下列3个因素引起的: (1)目标表示的复杂性; (2)映射类型的多样性; (3)源表达中各元素间交互程度的差异性。 自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。 语言交流是一种基于知识的通信。 8.1.2自然语言理解研究的进展 机器翻译是自然语言理解最早的研究领域。 70年代初期,对语言理解对话系统的研究取得进展。 80年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。 可以预料,进入21世纪之后,自然语言理解的研究有可能取得新的突破,并获得广泛应用。 8.1.3自然语言理解过程的层次 许多现代语言学家把这一过程分为5个层次: 语音分析 词法分析 句法分析 语义分析 语用分析 虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成 8.2 句法和语法的自动分析8.2.1 句法模式匹配和转移网络 句法模式匹配就是采用句法模式来对语言的句子进行匹配从而进行的句法分析。 自然语言多样化的,因而需要有许多模式。可用状态转移图来表示,这种用状态转移图来表示的表达方式称之为转移网络(TN,transition network)。 图中,q0,q1,…,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。该网络可用于分析句子也可用于生成句子。 转移网络(TN) 用TN来识别句子The little orange ducks swallow flies 的过程如表。 转移网络实例 TN分析树 1.并行算法 并行算法的关键是在任何一个状态都要选择所有可以到达下一个状态的弧,同时进行试验。 2.回溯算法 回溯算法则是在所有可以通过的弧中选出一条往下走,并保留其他的可能性,以便必要时可回过来选择之。这种方式需要一个堆栈结构。 操作可以分为先决条件和行为动作两个部分,只有当前状态的先决条件被满足时,才能进行相应的动作,同时使得当前状态转变到下一个状态。 8.2.2 扩充转移网络 ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。 这种条件和操作采用寄存器的方法来实现,在分析树的各个成分结构上都放上寄存器,用来存放句法功能和句法特征,条件和操作将对它们不断地进行访问和设置。 ATN弧上的标记也可以是其他网络的标记名,因此ATN是一种递归网络。 在ATN中还有一种空弧jump,它不对应一个句法成分也不对应一个输入词汇。 ATN的每个寄存器由两部分构成 句法特征寄存器 句法功能寄存器 在特征寄存器中,每一维特征都有一个特征名和一组特征值,以及一个缺省值来表示。 缺省值可以是空值。 功能寄存器则反映了句法成分之间的关系和功能。 分析树的每个节点都有一个寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。图所示是一个简单的名词
文档评论(0)