- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从自然语言的词法、句法、语义分析的角度介绍了自然语言理解所涉及的主要方面, 介绍了真实文本处理和对话分析问题, 从应用角度阐述了信息检索、机器翻译和语音识别技术。 7.1 自然语言理解的一般问题 7.1.1 概念及意义 自然语言 多义性、 上下文相关性、 模糊性、 非系统性、 环境相关性、 理解与所应用的目标相关 自然语言理解是指从自然语言到机器内部的一个映射(微观); 自然语言是指机器能够执行人类所期望的某些语言功能(宏观)。 功能包括: 回答问题 文摘生成 释义 翻译 7.1.2 研究进展 三个时期: 20世纪40和50年代的萌芽时期, 20世纪60和70年代的发展时期 20世纪80年代以后的走向实用化、大规模进行真实文本处理的时期。 发展时期的几个著名系统包括1968年出现的SRI和ELIZA系统等。 20世纪70年代,代表系统包括: W.Woods设计的LUNAR, T.Winograd设计的SHEDLU系统, 大规模真实文本处理时期 20世纪80年代后 著名的人机接口系统有 美国人工智能公司(AIC)生产的英语人-机接口系统Intellect, 美国弗雷公司生产的Themis人-机接口。 有较高水平的翻译系统,包括 欧洲共同体在美国乔治伦敦大学开发的机译系统SYSTRAN的基础上,成功地实现了英、法、德、西、意及葡等多语对的机器翻译系统, 美国的META等系统。 此期间特征 AI和专家系统中的思想, 知识的表示和处理方法, 领域知识和推理机制, 不再局限句法和词法研究, 极大地提高了系统处理的正确性。 为了处理大规模的真实文本,提出了语料库语言学: 20世纪80年代,英国Leech领导的UCREL研究小组,利用已带有词类标记的语料库,经过统计分析得出了一个反映任意两个相邻标记出现频率的“概率转移矩阵”。 设计的CLAWS系统依据这种统计信息,对LOB语料库的一百万词的语料进行词类的自动标注,准确率达96%。 基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题。 7.1.3自然语言理解的层次 一个文字表达的句子的层次是 词素→词或词形→词组或句子, 声音表达的句子的层次则是 音素→音节→音词→音句, 其中每个层次都受到文法规则的制约。 语言的处理过程也应当是一个层次化的过程。 这一过程分为五个层次: 语音分析 词法分析 句法分析 语义分析 语用分析 7.2 词法分析 从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义,如unchangeable是由un-change-able构成的,其词义由这三个部分构成。 英语单词切分 英语单词有 词性、 数、 时态、 派生及 变形等变化, 找词素复杂,需要对词尾或词头分析。 如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素。 从词素中获得语言学信息。 如英语中构成词尾的词素 “s” 名词复数/动词第三人称单数, “ly” 副词的后缀, “ed” 动词的过去分词, 算法(英语词法分析) /*它可以对那些按英语文法规则变化的英语单词进行分析*/ repeat look for word in dictionary if not found then modify the word until word is found or no further modification possible 其中“word”是一个变量,初始值就是当前的单词。 如,分析catches、ladies catches ladies, 词典中查不到 catche ladie 修改1:去掉“-s” catch ladi 修改2:去掉“-e” lady 修改3:把“i”变成“y” 在修改2的时候,可以找到“catch”在修改3的时候就可以找到“lady”。 词法分析难在词义判断,单词有多种解释,仅依靠查词典无法判断。 如, “diamond” 解释: 菱形,边长均相等的四边形; 棒球场; 钻石。 依靠句子中其他相关单词和词组的分析。如: John saw Susans diamond shining from across the room. 中的“diamond”的词义必定是钻石。 汉语切分困难 如“不是人才学人才学”, “不是人才-学人才学” “不是人-才学人才学” 7.3 句法分析 (1)对句子或短语结构进行分析,以确定构成句子的各个词、短语之间的关系以及
文档评论(0)