计算语言学lesson6课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算语言学lesson6课件.ppt

计算语言学 lesson6 一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。 狭义:指的是通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科。例:“有意见分歧” 算一算怎么切分合理 是“有意 见 分歧” 还是 : “有 意见 分歧” ? 广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。 例1:中国《红楼梦》的作者:前八十回和后四十回是不是一个人。 例2:方言亲属关系的计量: 二、计算语言学的发展: 计算语言学的研究首先是从机器翻译开始的。 1、《圣经@创世纪》中“巴比塔”的传说。 2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无歧义的语言。其中最著名的成果便是维尔金斯 3、20世纪30年代,法国工程师提出了用机器进行语言翻译的想法,并在1933年7月获得了一项“翻译机”的专利,叫做“机械脑”。 4、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。如: I dont know the boy who is waiting outside. 5、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。 6、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。 7、计算语言学的进一步发展 音字转换:语音识别、拼音输入 自动文摘:自动给出一篇或多篇文章的摘要 信息检索:在海量的信息准确找到你所需要的信息 信息过滤:从信息流中筛选出特定的的信息(信息安全、突发事件)………… 三、计算语言学的学科分类:就理论研究来看,计算机语言学还可以分为计算语音学、计算词汇学、计算语法学、计算语义学、语料库语言学等不同的分支学科。 (一)、计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。 语音识别:机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 一般来说,完整的语音识别要经历三个步骤: (1)、语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。 (2)、声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 (3)、计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。 语音合成:将可视的文本信息转化为可听的语音信息。 现在语音识别技术还在发展,据说可以哑人手语识别系统借助数据手套,将哑人在会话过程中的手的运动信息提取出来进行识别,提取其中的语义,并通过语音合成,最终将他们的手语信息翻译成语音并输出,便于听力健全人理解。 (二)、计算词汇学:研究如何用计算机处理自然语言的词汇,建立语言词汇库,术语数据库等机器可读词典。 (三)计算语法学:研究如何用计算机来分析自然语言的语法。这种研究在计算语言学中叫做自动语法分析。 (四)计算语义学:如何利用计算机来分析自然语言的语义。 (五)语料库语言学:语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。语料库语言学(corpus linguistics)是以语料库中的语篇(text)语料为基础对语言进行研究的一门学科。 四、计算语言学的特点 (一)、元语言的形式化 1、对象语言、元语言:对象语言指的是人们要研究的那种语言,元语言指的是人们描述对象语言的那种语言。从人人交际的角度来看,对象语言一般是人类正在使用的自然语言,也可以是死语言,元语言一般是人类正在使用的自然语言;从人机交流的角度讲,对象一般是类正在使用的自然语言,也可以是死语言,元语言一般是人工语言。 (二)、具有可操作性: 语言研究的可操作性:告诉人们怎样从一个现成的句子(这时你并不懂这个句子的具体含义)变出他的句法结构乃至它的意义。其过程是先操作后理解。 (三)、具有工程性:表现在其涉及领域的广泛和不能停留在理论和实验阶段其最终目标是达到实用化。 (四)、注重语言研究的全局性和一般性:计算语言学研究的是带有普遍性和一般性的问题,而传统的语言学家往往喜欢研究的是内在的规律。 四、汉字的信息处理 (一)、汉字与信息处理 (二)、汉字输入 1、汉字识别 电脑的汉字识别功

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档