ch6_自然语言理解.pptVIP

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ch6_自然语言理解

自然语言处理 自然语言处理 学习目标 通过这一章的学习,我们将了解自然语言及其理解的一般问题,掌握句法自动分析的基本方法,了解统计方法在语言理解中的应用,在此基础上学习自然语言中的词性标注方法。 学习指南 自然语言理解是人工智能的一个重要领域,是一个困难和富有挑战性的研究任务,它需要大量的和广泛的知识,包括语法、语义和语言等语言学和语音学以及有关背景知识。在研究自然语言理解时,将用到多种知识表示和推理方法。这一点将在本章中充分体现出来。 难重点 句法分析,统计方法,词性标注。 知识点 句法分析,语义分析,乔姆斯基语法,基于统计的自然语言处理技术。 自然语言处理 主要内容 概述:语言及其理解的一般问题 句法和语法的自动分析 大规模汉语语料库加工的基本方法 概述——语言概念和分类 语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。 自然语言是指人类语言集团的本族语,如汉语、英语、日语等,以及人类用与交流的非发声语言,如手语、旗语等。自然语言是相对于人造语言而言的。 人造语言是指世界语或计算机的各种程序设计语言。 概述——语言的构成 概述——语言构成 语言的基本单位是词 词素是构成词的最小的有意义的单位。 词汇又可分为词和熟语。 词汇受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。 熟语就是一些词的固定组合,如汉语中的成语。 词由词素构成,词素是构成词的最小的有意义的单位。 “教师”是由“教”和“师”这两个词素所构成的。 概述——语言构成 语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。 语法:包括词法和句法 词法:包括构词法和构形法 构词规则:用词素构成词的规则,如教+师-→教师。 构形法:一个词又有不同的词形、单数、复数、阴性、阳性等等。这种构造词形的规则称为,如教师+们-→教师们。 句法:包括词组构造法和造句法。 词组构造法是词搭配成词组的规则,如红+铅笔-→红铅笔。这里“红”是一个修饰铅笔的形容词,它与名词“铅笔”组合成了一个新的名词。 造句法则是用词或词组造句的规则,我是计算机科学系的学生,这是按照汉语造句法构造的句子。 概述——语言构成 语言是音义结合的,每个词汇有其语音形式。 音素是指一个发音动作所构成的最小的语音单位。 一个词的发音由一个或多个音节组合而成。 音节又由音素构成。 音素分为元音音素和辅音音素。 概述——自然语言理解 自然语言理解就是如何让计算机能正确处理人类语言,并据此作出人们期待的各种正确响应。 从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。 (1)回答有关提问; (2)提取材料摘要; (3)不同词语叙述; (4)不同语言翻译。 自然语言理解的研究 书面语理解:容易用机器处理 口语理解:语音识别、理解和合成 概述——自然语言理解主要方面 问题应答:机器能正确的回答输入文本的有关问题。 文摘生成:机器有能力产生输入文本的摘要。 文 本释义:机器能用不同的词语和句型来复述或解释输入的文本。 机器翻译:机器具有把一种语言翻译成为另一种语言的能力。 概述——自然语言理解的研究 运用 语言学 词汇 语法 句法 语用 语义学 大量的客观世界的知识 相关学科的知识。 概述——理解自然语言的难点 目标表示的复杂性: 语义的概念可以用语义网表示,要从语句中提取这种表示的关键字就相当的复杂。 映射的歧义性: 将语言看成是源语言和目标语言的二元组,两者存在着映射。 一对一类型是最理想的。 句子成分间的交互程度: 每个语句都是由多个成分组成的,每个成分的映射与其他成分交互程度相当高。 概述——理解自然语言的工作 理解所出现的每个词 词义表示语句意义的结构 句子语义表示言语的结构。 重点:解决如何有效地使用语法、语义、语用及与其相关的各种知识问题。 概述——自然语言理解的角度 文字表达的句子是由词素→词或词形→词组或句子。 声音表达的句子则是由音素→音节→音词→音句,其中每个层次都是受到语法规则的制约。 概述——自然语言理解的步骤 汉语理解的一般分为以下步骤: 原文输入 句子词语切分及词语属性特征标注 语法及句法分析 语义及语用和语境分析 生成目标形式表示 句群及篇章理解 概述——自然语言理解的层次 1 语音分析 找出最小可独立的声音单元----音素 汉语的声母、韵母 2 词法分析 找出词汇的各个词素(词根)从中获得语言学信息。 我们-研究所-有-东西我们-研究-所有-东西 概述——自然语言理解的层次 3 句法分析 目的是找出词、短语等的相互关系以及各自在句子中的作用等,

您可能关注的文档

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档