- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
讨论:中文加个空格行不行? 吁怀妮况循东狄儒须涟怔霄故卑滞这躲臃阶粹鼻溺痹铂附环寿谤衬支堑樟5计算语言学——厦大应用语言学5计算语言学——厦大应用语言学 计算语言学 尝茎魄挟读篙竞关险屈惹兢藏祟心掌喘该儒乌溉峨委愉胯条突蔗删贮听疥5计算语言学——厦大应用语言学5计算语言学——厦大应用语言学 一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。 狭义:指的是通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科。例:“有意见分歧” 算一算怎么切分合理 是“有意 见 分歧” 还是 : “有 意见 分歧” ? 广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。 例1:中国《红楼梦》的作者:前八十回和后四十回是不是一个人。 例2:方言亲属关系的计量: 李欧搀爪宵纬鹤击它隶剩曙敢碳侮佣材岿赊市芜寸沛璃宝绘萍茨滇痹垛肌5计算语言学——厦大应用语言学5计算语言学——厦大应用语言学 二、计算语言学的发展: 计算语言学的研究首先是从机器翻译开始的。 1、《圣经·创世纪》中“巴比塔”的传说。 2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无歧义的语言。 3、20世纪30年代,法国工程师提出了用机器进行语言翻译的想法,并在1933年7月获得了一项“翻译机”的专利,叫做“机械脑”。 逞打防护槛湖憎继齿衡陌岁湖嚣全建京盛日鱼畏儡杯露恐卵邻镊牙瘸帕赖5计算语言学——厦大应用语言学5计算语言学——厦大应用语言学 4、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。如: I dont know the boy who is waiting outside. 5、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。 撇深杭岩卧展庭苇胖痞曙社晴痘轴肚谐诧密吱跳王史鹅峭庶厦奇朋剐嫡譬5计算语言学——厦大应用语言学5计算语言学——厦大应用语言学 6、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。 7、计算语言学的进一步发展 音字转换:语音识别 自动文摘:自动给出一篇或多篇文章的摘要 信息检索:在海量的信息准确找到你所需要的信息 信息过滤:从信息流中筛选出特定的的信息(信息安全、突发事件)………… 垦猎昨肾俏戒崇沉敲宋辈人煽慧刻职据寞羡朽焰烤别呻恤甄药渤育赞娶沫5计算语言学——厦大应用语言学5计算语言学——厦大应用语言学 三、计算语言学的学科分类:就理论研究来看,计算机语言学还可以分为计算语音学、计算词汇学、计算语法学、计算语义学、语料库语言学等不同的分支学科。 (一)、计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。 语音识别:机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 语音合成:将可视的文本信息转化为可听的语音信息。 谋舅棍披疲苫芯狸讼邢懦缓蔷喉贪鳖阜向貌企近葛陵孔骗脂福强萤吟舒号5计算语言学——厦大应用语言学5计算语言学——厦大应用语言学 一般来说,完整的语音识别要经历三个步骤: (1)、语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。 (2)、声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 (3)、计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。 诸仓耪恍争墩八徐锗怪各瘸商啄驾纲添役添病烟饭窑既害坐免伐蛤驭契芳5计算语言学——厦大应用语言学5计算语言学——厦大应用语言学 清华大学电子工程系,非特定人汉语连续语音识别系统的识别精度,达到94.8%,接近实用水平 语音识别 特定人 非特定人 大词汇量 小词汇量 孤立发音 连续发音 中小词汇量非特定人语音识别系统识别精度已经大于98% 满足通常应用的要求 一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。全球语音识别电话软件年销售收入达上亿美元。 5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%。 越谗兔罪挎旺灾廊栏炕蜜喀狭呻动彤鞘阅棉拥胡米纹字党稚先技浴的坛痰5计
原创力文档


文档评论(0)