第10讲 自然语言理解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第10讲 自然语言理解 自然语言与自然语言理解 自然语言理解的层次模型 汉语的特点及汉语理解面临的困难 自然语言理解的应用 第一节 自然语言与自然语言理解 自然语言:是指人类种族集团的本族语言,是我们日常使用的语言 八大语系 汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语系。 5600多种不同的语言和方言 使用人口最多的语言有汉语、英语、俄语、日语、法语和德语等。 自然语言是相对于人工语言(程序设计语言)而言的。 语言是思维的载体,是人际交流的重要工具。 自然语言理解(计算语言学)是人工智能领域的重要分支,也是一个极其活跃的研究领域 什么是“理解”? 从微观上来说,理解是指从自然语言到机器内部表示之间的一种映射 从宏观上讲,理解是指能够完成我们所希望的一些功能 自然语言理解分为两个方面:书面语理解和口语理解 书面语理解 将文字输入计算机 计算机识别和理解文字、词、短语、句子、段落和篇章 按指定的目标作出相应的回答或反映 口语理解 用口语对计算机讲话 计算机识别和理解语音输入,把语音流变换为文字流 然后按书面语理解 最后利用语音合成将回答转换成声音输出 美国认知心理学家 G.M.Ulson 提出判别计算机是否理解自然语言的四条标准: 问答:能够回答与输入语言材料有关的问题 文摘:能够对所给的语言材料进行文摘 释义:能用不同的词语复述所给的语言材料 翻译:具有将语言材料转译成另一种语言的能力 计算机只要达到了以上标准的一条,就可以说它能够理解自然语言 计算机理解自然语言是极其困难的,因为不仅要有相应的语言学知识,而且还要有领域知识和上下文信息 困难主要体现在各级语言单位与其语义之间的映射关系多种多样 一对一、多对一、一对多、多对多 如果计算机能够理解自然语言,人-机间的信息交流将能够以人们熟悉的本族语进行。 创造和使用自然语言是人类高度智能的表现,对自然语言理解的研究有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。 自然语言理解研究的发展 以关键字匹配为主流的早期历史(1950-1960年代) 五六十年代开发的自然语言理解系统主要依靠关键字匹配技术来识别输入句子的意义,而不是真正意义上的理解。 系统中事先存放了大量包含关键字的模式,每个模式都和一个解释相对应。 待理解句子输入系统,系统将句子与模式逐个匹配,一旦匹配成功便立刻得到对应的解释。 如:人-机接口系统(列车数据库查询系统) 模式:车次经过处所吗? 解释:询问车次是否经过处所,执行查询指令,如 SQL 语句 问题:571次经过金华吗? 以句法-语义分析为主流的中期历史(1970-1980年代) 句法分析 识别构成句子的各个成分以及它们之间的相互关系,例如确定每个动词的主语和宾语,以及每个修饰性的词或短语所修饰的成分。 分析结果一般是句子的一棵分析树。 语义分析 根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义的某种形式化表示。 结果可以是逻辑表达式、语义网络或其它一些复杂的数据结构。 以走向实用化和工程化为特征的近期历史(1980-以后) 一批商品化的自然语言人-机接口和机器翻译系统出现在市场上。 1990年8月,13届国际计算语言学大会,首次提出了处理大规模真实文本的战略目标。 语料库语言学兴起,它顺应了大规模真实文本处理的需求,提出了以计算机语料库为基础的语言学研究及自然语言处理新思路。 汉语机器理解研究的发展 1956年开始俄汉机译系统的研究,1959年完成,采用的技术主要是词对词翻译和模式匹配。 1978年后开始了真正意义上的汉语理解研究,经过二十几年的发展,在汉语的句法和语义分析、各级语言单位的语义表示与获取、歧义消解等方面都取得了进展,并建立了一批实验系统,其中一些系统已经实用化、商品化。 目前国内开展此项研究的单位 北京大学(俞士汶) 清华大学(黄昌宁、周明) 东北大学(姚天顺) 山西大学(刘开瑛、郭炳炎) 哈工大(王开铸) 微软中国研究院 第二节 自然语言理解的层次模型 自然语言语言单位的构成是分层次的 对于汉语,分为以下几层: 字、词、短语、句、段落、篇章 自然语言理解应遵循单向依赖关系 任一较大语言单位的理解,必须在较小语言单位理解的基础上进行 较小语言单位的理解,必须在较大语言单位制约条件的限制下获得 自然语言理解应分层次,层层推进 分词层 把彼此间没有符号隔开的文字流(书面语)或语音流(口语)在规则 R1 的作用下,变换为一个个词组成的序列(词串),而词串的正确性受上一层制约条件的限制 如:“自然 | 语言 | 理解 | 是 | 人工智能 | 领域 | 的 | 重要 | 分支” 短语层 把词串中彼此孤立的词在规则 R2

文档评论(0)

***** + 关注
实名认证
文档贡献者

本账号下所有文档分享可拿50%收益 欢迎分享

1亿VIP精品文档

相关文档