同济大学计算机前沿技术概论 第4章_人工智能.pptVIP

同济大学计算机前沿技术概论 第4章_人工智能.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
同济大学计算机前沿技术概论 第4章_人工智能.ppt

汉语的特点 汉语的词类缺乏形式标注 汉语词类跟句法成分之间不存在简单的一一对应关系. 汉语的句子的构造原则跟短语的构造原则基本一致 汉语的这两个特点的表现形式就是普遍存在的词类兼类现象和句法结构的递归嵌套性。这些必然要导致大量的回溯,增加计算的开销 采用确定性分析策略则可以解决这种问题。 Vice managing director Zhang Yaqin of Microsoft Corp. was promoted to Microsoft’s global vice president. (微软公司的常务董事张亚勤晋升为微软全球副总裁。) 自然语言理解的一般问题 词法分析 句法分析 语义分析 大规模真实文本的处理 Web信息抽取 语义分析的任务: 输入句子的句法结构和句子中每个实词的词义推导出能反映该句子意义的某种形式化表示 对语义现象作形式化处理要比句法现象困难得多,主要原因有 语义和句法系统的界限很难划清楚 语义及其他认知系统的界限也难以划清楚 用于计算机语义处理的计算语义学还远未成熟 格文法 格语法是Filmore于1968年提出来的,曾经对自然语言理解技术的发展产生过较 大的影响,直到现在不少研究仍在使用 格语法。 人们认识到格关系确实是描述语言语义(包括和语法的关系)的一种很好的形式,当然在实际应用过程中不 可避免地要有些修改。 格文法 格文法的特点是允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却相应于语义关系,而非严格的句法关系 如句子:Mary hit Bill的格文法分析结果可以表示为 ( hit ( Agent Mary ) ( Dative Bill )) 在格文法中,格表示的语义方面的关系,反映的是句子中包含的思想、观念等,称为深层格。和短语结构语法相比,格文法对于句子的深层语义有着更好的描述。 如果两个句子的底层的语义关系一致,各名词成分所代表的格关系不会发生相应的变化。 例如,被动句“Bill was hit by Mary”与上述主动句具有不同的句法分析树,但格表示完全相同。 自然语言理解的一般问题 词法分析 句法分析 语义分析 大规模真实文本的处理 Web信息抽取 语料库语言学及其特点 传统的句法-语义分析技术,所采取的主要研究方法是基于规则的方法 由于自然语言理解的复杂性,各种知识的“数量”浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识,而且,规则实际上面向语言的使用者人的,将它面向机器则分析结果始终不尽如人意。 研究语言知识所用的真实文本称为语料,大量的真实文本即构成语料库 传统的词典通常是把各类不同的信息放入一个词汇单元中加以解释,包括拼音、读音、词形变化、时态变换、同义词、反义词等,偶尔还有图示或插图,包含着相当可观的信息存储。但是用在自然语言理解时显得不够 例如,对于名词“树”,传统的词典一般解释为:一种大型的、木制的、多年生长的、具有明显树干的植物。基本上是上位词加上辨别特征。 第一,它没有谈到树有根,有植物纤维壁组成的细胞,甚至也没有提及它们是生命的组织形式。但是在WordNet中,只要查一下它的上位词“植物”,就可以找到这些信息。 第二,树的定义没有包括对等词的信息,不能推测其他种类的植物存在的可能性。 第三,对于各种树都感兴趣的读者,除了查遍词典,没有别的办法。 第四,每个人对树都有自己的认识,而词典的编撰者又没有将其写在树的定义中。如树包括树皮、树枝;树由种子生长而成,等等。 可以看出,普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性的信息 WordNet是按一定结构组织起来的义类词典,主要特征表现在 : 第一,整个名词组成一个继承关系 WordNet有着严格的层次关系,这样一个单词可以把它所有的前辈的一般性的上位词的信息都继承下来,可以提供全局性的语义关系,具有IS-A关系 第二、动词是一个语义网 动词大概是最难以研究的词汇,在动词词典中,很少有真正的同义动词。表达动词的意义对任何词汇语言学来说都是困难的。 WordNet不做成分分析,而是进行关系分析。这一点是计算语言学界所热衷的课题,与以往的语义分析方法不同。这种关系讨论的是动词间的纵向关系,即词汇蕴涵关系 WordNet基于名词和动词以及其他词性的关系进行词类间的纵向分析,在国际计算语言学界有很大的影响。但是,它也有不足之处,如对横向关系还没有考虑。 WordNet?是一个英语字典。包含了语义信息,有别于通常意义上的字典。 WordNet根据词条的意义将它们分组,每一个具有相同意义的字条组称为一个Synset(同义词集合)。W

文档评论(0)

资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档