第六讲计算语言学介绍.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六讲 计算语言学;什么是计算语言学? 请举出你概念里计算语言学研究的大致内容.;;各类定义: 社会的需求和技术的进步,推动着古老的语言学和新兴的计算机科学相接合,产生了一门交叉学科———计算语言学。它为计算机处理语言信息(包括语言中信息成分的发现和提取,语言数据的存储、加工和传输,语言翻译和理解)提供理论模型、计算方法和实现技术。 ——俞士汶;;;计算语言学的定义:是利用计算计研究和处理自然语言的学科。 ;二、计算语言学的萌芽初创: ;2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无歧义的语言。 十七世纪的普遍语言文字运动席卷西欧,吸引了各国学者,但最为投入的似乎是英国人。伦敦皇家学会在成立初期,主要致力于普遍语言文字的讨论,并资助威尔金斯出版《论一种真实字符和一种哲学语言》(1668)。牛顿对语言问题也颇感兴趣,在皇家学会《哲学汇刊》上发表过两篇语音学论文。;;语言学与计算机的结合 1、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。 2、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。 ;3、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。 理解自然语言 使计算机具有听说读写的能力 语音识别与合成,机器翻译,自然语言人际借口,情报检索,自动文摘,信息抽取,语料库建设 ;4、计算语言学的进一步发展 音字转换:语音识别、拼音输入 自动文摘:自动给出一篇或多篇文章的摘要 信息检索:在海量的信息准确找到你所需要的信息 信息过滤:信息过滤是大规模内容处理的另一种典型应用。它是对陆续到达的??息进行过滤操作,将符合用户需求的信息保留,将不符合用户需求的信息过滤掉。通常可分为不良信息过滤和个性化信息过滤:不良信息过滤一般指过滤掉暴力反动色情等信息;个性化信息过滤类似于信息检索,帮助用户返回感兴趣的东西。 ;语言学与数学;;;;三、计算语言学的学科分类;(一)计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。 语音识别(speech recognition):机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 ;一般来说,完整的语音识别要经历三个步骤: (1)语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。 (2)声学模型与模式匹配(识别算法):将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 (3)计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。 ;语音合成(speech synthesis):将可视的文本信息转化为可听的语音信息。 哑人的手语——语音 iphone4S ;(二)计算词汇学:研究如何用计算机处理自然语言的词汇,建立语言词汇库,术语数据库等机器可读词典。;;(四)计算语义学:如何利用计算机来分析自然语言的语义。 优选语义学指的是用于自动翻译的一种语义学理论,英国人工智能专家Y.A.威尔克斯于1974年提出。  语义单位有 5种:义素;义式;裸模板;模板;超模板。 ;义素是最基本的语义单位,由义素构成义式,用以描写单词的语义;由义式构成裸模板及模板,用以描写简单句的语义;再由超模板描写更大的文句或段落的语义。威尔克斯确定了80个义素,分为 5组:   ① 语义实体:如 MAN(人类),STUFF(物质),THING (物体),PART(事物的部分),FOLK(人类的群体),STATE(存在的物质),BEAST(兽类)等等。   ② 动作:如FORCE(强迫),CAUSE(引起),FLOW (流动),PICK(挑选),BE(存在)等等。   ③ 性状:如KIND(性质),HOW(动作的方式)等等。   ④ 种类:如 CONT(容器),THRU(孔)等等。   ⑤ 格:如 TO(方向),SOUR(来源),GOAL(目标),LOCA(位置),SUBJ(施事),OBJE(受事),IN(包含),POSS(领属)等等。 ;;;;;;;北京大学《人民日报》标注语料库: 北京语言大学的语料库:/kych/H.htm 清华大学的汉语均衡语料库TH-ACorpus:/ainlp/source.htm 山西大

文档评论(0)

4753333 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档