- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二节 自然语理解
第二节 自然语言理解 授课时间:2006年12月25日 授 课 人:徐艳华 教学目标 自然语言理解的发展 自然语言理解的原理 汉语语句的生成系统 自然语言理解的难点 一、自然语言理解的发展 自然语言理解(Natural Language Understanding )又叫人机对话(Man-Machine Dialogue),研究如何让计算机理解和运用人类的自然语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。主要包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。 自然语言理解的发展大致经历了这样几个时期: 自然语言理解从 20世纪 60年代初开始研究,由于 乔姆斯基在语言学理论上的突破和此后各家理论的发展,以及计算机功能的不断提高,目前已经取得了一定的成果,分为语音理解和书面理解两个方面。 语音理解是用口语语音输入,使计算机听懂语音信号,用文字或语音合成输出应答。方法是先在计算机里贮存某些单词的声学模式,用它来匹配输入的语音信号,称为语音识别。这只是一个初步的基础,还不能达到语音理解的目的。因为单凭声学模式无法辨认人和人之间、同一个人先后发音之间的语音差别,也无法辩认连续语流中的语音变化;必须综合应用语言学知识,以切分音节和单词,分析句法和语义,才能理解内容,获取信息。 60年代至70年代初期,研究工作一直停留在单词的语音识别上,进展不大。直到70年代中期才有所突破,建立了一些实验系统,能够理解连续语音的内容,但是还限于少数简单的语句。 书面理解是用文字输入,使计算机看懂文字符号,也用文字输出应答。这方面的进展较快,70年代初期取得突破,中期以后又有所发展。目前已能在一定的词汇、句型和主题范围内查询资料,解答问题,阅读故事,解释语句等,有的系统已付诸应用。 书面理解的基本方法是:在计算机里贮存一定的词汇、句法规则、语义规则、推理规则和主题知识。语句输入后,计算机自左至右逐词扫描,根据词典辨认每个单词的词义和用法;根据句法规则确定短语和句子的组合;根据语义规则和推理规则获取输入句的含义;查询知识库,根据主题知识和语句生成规则组织应答输出。 目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐步解决。 另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。 二、自然语言理解的原理 语音识别与生成。首先,需要分析各种辅音、元音、声调、语调等语音成分的物理特征,把这些不同的特征转换成数码形式供计算机辨认。接着,还要研究音位和音位变体之间的关系,以及从连续的音流中截取单词、音节,识别各种连续音变,人与人之间的语音差别等。将这些语音成分转为相应的文字。 2、句子分析 将语音转为文字或直接输入文字之后,要对句子进行分析。 (1)基于语法的句子分析 “曹雪芹的代表作是三国演义吗?”计算机对其进行自动切分,得出——“曹雪芹 的 代表作 是 三国演义 吗?”与此同时,计算机对其还进行了自动标注。然后,计算机自左至右逐词辨认。第一个词“曹雪芹”,查电子词典里有没有这个词。如果没有,计算机会给出一个表示不能分析的信号(比如打出一个“?”);如果有,就把这个词的注解记录下来:专有名词、人名、清代人等等,再进行下一个分析。 进行到第三个词,得到“名词+的+名词”,查句法规则库,如果没有这样的结构,就不能分析;如果有,根据句法规则,得到“名词+的+名词=Np”,语义规则随即加以解释。如果解释不通,如错打成“曹雪芹的施耐庵”,计算机又给出不能分析的信号。解释通了,继续往下查,NP+V。。。NP十V+N,最后得出NP十VP十0(名词短语+动词短语十疑问词)。 根据句法规则,疑问词“吗”要求计算机对前面的NP+VP作出肯定或否定的回答。理解了这个问句的语义与要求之后,计算机就转向知识库或数据库查询。根据语义,NP+VP的命题是:“曹舍芹的代表作”和“《三国演义》”是同一本书,计算机要对这个命题的真假作出判断。如果计算机在知识库或数据库查不到这方面的知识,就只能回答“不知道”;如果查到了,得到了这个命题为假的结果,于是计算机就在显示终端回答: “不是。曹雪芹的代表作是红楼梦。 (2)基于语义的句子分析 汉语源语句
您可能关注的文档
最近下载
- GB 45673- 2025《危险化学品企业安全生产标准化通用规范》之“5.7 操作安全”审核检查单(2025A0).docx VIP
- 江苏和鼎网架钢结构工程有限责任公司钢结构桁架吊装安装专项施工方案.doc VIP
- (推荐!)GB 45673-2025《危险化学品企业安全生产标准化通用规范》之“5.2 安全生产责任制”审核检查单(2025A0).docx VIP
- 社会秩序维护法-台湾.doc VIP
- 心脏瓣膜病病人的护理.pptx VIP
- 铸锭分厂应急预案.docx VIP
- (推荐!)GB 45673-2025《危险化学品企业安全生产标准化通用规范》之“5.3 安全生产信息与合规审核”审核检查单(2025A0).docx VIP
- GB 45673-2025《危险化学品企业安全生产标准化通用规范》之“5.1安全领导力”审核检查单.pdf VIP
- 第三部分放射治疗练习卷含答案.doc VIP
- 22G101 三维彩色立体图集.docx VIP
原创力文档


文档评论(0)