- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器翻译技术发展概述
机器翻译技术的发展概述
摘要:机器翻译近年来飞速发展,在各个领域都有广阔的使用空间,然而,目前的机器翻译技术还无法使用户完全满意,本文通过对机器翻译的技术和发展现状展开论述,试为进一步研究和改进现有技术提供基础的理论依据。
关键词:机器翻译; 语料库;模型;语法
中图分类号:G642 文献标识码:A文章编号:1003-2851(2010)02-0187-01
一、机器翻译技术发展概述
机器翻译(Machine Translation , MT)是使用计算机实现一种自然语言文本到另一种自然语言文本的翻译。通常情况下这种翻译是在没有人工干预的情况下进行的;若翻译的过程中含有人为因素,如人工校对翻译结果或优化翻译结果等,则机器所做的翻译称为机器辅助翻译。
机器翻译涉及到的领域非常广泛,包括自然语言学、人工智能、数理逻辑及概率统计等。自然语言作为人类思维的高级表现形式,其自身的复杂性与灵活性使机器翻译成为人工智能领域中最难解决的决策问题之一。其灵活性与复杂性表现在同一源语言句子在不同的环境中可以表达不同的含义,同一含义可以采用不同语言表示形式。然而复杂并不代表完全不可以掌控,一种语言的语法规则及表达习惯是有一定规律的。掌握和运用这些规律就可以采用语言来表达思想,但是机器翻译需要完成两种或多种语言之间的处理,所以增加了翻译的难度。对于同一语系的语言其句子的长度、所含语义的信息量等可能比较相似,但是对于不同语系的语言其结构、表达方式、位置等差距很大,这些无疑会在一定程度上增加翻译的复杂度。
目前机器翻译的研究方法主要有基于规则(Rule-Based)的机器翻译、基于中间语言的机器翻译及基于语料库(Corpus-Based)的机器翻译。基于规则的机器翻译主要是采用由语言专家编写或从语料库中获取的规则来表示翻译知识,由于这种翻译系统需要熟练掌握两种语言的语言专家进行规则的总结设计等,实现周期较长,难度较大;基于中间语言的机器翻译是将源语言表示为一种中间形态语言,再将中间形态语言翻译为目标语言,由于设计中间形态语言 是一项非常复杂的工作,所以这种翻译适用于规模小的特定领域;基于语料库的机器翻译可以分为基于统计的机??翻译与基于实例的机器翻译,该研究方法需要大规模语料库的支撑,自20世纪80年代IBM的Brown等人提出基于信道源思想的机器统计机器翻译模型以来,该方法一直以来都受到研究人员的关注和青睐。
二、国内外最新研究动向
国内外关于机器翻译的研究主要集中在三种方法上:基于规则的方法、基于中间语言的方法及基于语料库的方法。
上世纪90年代之前,基于规则的方法占主导地位,其思路是由人工或机器辅助先构造供翻译用的词语信息库和句法语义规则库,再通过知识表示、知识推理,经由分析、生成等步骤获取翻译结果。这种方法也称为理性主义(Rationalist)方法,优点在于所使用的数据噪声小,构造出来的系统运行高效;缺点是构造规则库过程需要深入了解翻译语言及目标语言的专家制作语言的规则库,而且所得到的规则库既难以完备也无法反映语言的新变化还常常含有构造者的主观因素。
基于中间语言的机器翻译目前的研究相对较少,该方法主要通过设计一种尽可能在各语言之间通用的中间形态语言。只要构造的中间语言体系良好、表述准确并且方便处理则基本上可以表示各种语言。这方面研究主要有联合国大学高等研究院(IAS/UNU)的通用网络语言(UNL)、卡耐基梅隆大学(LTI/CMU)在基于知识的翻译系统 KANT 的基础上推出的 Kantoo等。
基于语料库的方法也称为经验主义(Empiricist)方法,主要是通过对大规模的双语或多语语料库进行概率运算,根据各语言要素之间的相似程度构造语言模型。经验主义方法的优势是构建模型时不需要太多的人力参与。经验主义方法又可分为基于统计的(Statistical-Based)方法和基于实例的(Example-Based)方法,目前较主流的为基于统计的机器翻译方法。
2000年以来,统计机器翻译的研究进入了空前繁荣的时期。各种新的模型不断涌现,统计机器翻译从理论到技术都取得了长足的进展。在翻译框架方面,从最早的信源信道模型发展到最大嫡模型 (Maxi-Entropy Models),构造出的系统更具可扩展性;在翻译模型方面,从最早的基于词的模型发展到对齐模板模型和其他基于短语的模型及基于句法结构的模型,统计机器翻译模型考虑的语法因素越来越丰富;在参数调整方面,引进了基于最小错误率(Mini-Error Rate,简称MER)的区别性训练方法,参数训练过程中数据稀疏和模型不完善的问题得到了较好的解决。这些方面的进展使统计机器翻译系统的实际翻译效果有了很大的提升,使这类系
您可能关注的文档
最近下载
- 54.地质灾害治理工程质量检验评定标准(试行)-TCAGHP 054-2019.pdf VIP
- 外研版(三起)五年级上册英语全册教学课件.pptx
- 2022沃安消防JTW-LD-W302 缆式线型感温火灾探测器安装使用说明书.docx VIP
- 电梯安装施工方案.doc VIP
- 国家开放大学,期末考试复习资料,02152 操作系统.docx VIP
- 法医学知识点整理.pdf VIP
- 2020年全国大学生数学建模竞赛题目B:穿越沙漠优秀论文范例(含源代码).pdf
- 中医经络培训.pptx VIP
- 钢结构屋面专项施工方案.pdf VIP
- CSC-103B(220kV)线路保护校验标准化作业指导书.doc VIP
原创力文档


文档评论(0)