汉英机器翻译浅析.pdfVIP

下载本文档

13
0
约 7页
2017-08-19 发布于重庆
举报
版权申诉

汉英机器翻译浅析.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉英机器翻译浅析.pdf

汉英机器翻译浅析计算机科学与技术 072479 李良玥一、引言机器翻译，指利用计算机把源语言转换成目标语言。由于机器翻译能够减轻翻译人员的脑力劳动，把翻译工作者从繁重的翻译工作中解放出来；还能够提高翻译效率，实现国际情报交流的部分自动化。因此，自计算机问世起，就不断有学者进行机器翻译的尝试。迄今，出现了不少商品化的机器翻译系统，如美国的SYSTRAN 系统、美国Texas 大学与德国Simon 公司合作研制的METAL 系统、日本日立公司的ATLAS 系统等等。我国的机器翻译研究从一开始就受到了国家的高度重视，早在1959 年中科院语言研究所和计算技术研究所就进行了中国第一次机器翻译实验（俄汉）。在我国，外汉机器翻译系统，特别是英汉机器翻译系统的研制已经取得了较大的成功，达到了初步实用的水平，并且推出了不少实用系统，如“译星”、“汉神”、“通译”，等等。但汉外机器翻译，特别是汉英机器翻译的研究却进展缓慢，离实用化还有一定的距离。使用过汉英和英汉机器翻译系统的人都会有一个深深的感受，这就是汉英机器翻译远不如英汉机器翻译。同样的两种语言，为什么机器翻译中把汉语当作源语言要比把英语当作源语言要困难得多？我们以下面这个例子为例就可以看得相当清楚了。例如要把英文句子“We should do our utmost to achieve our goal in life”翻译为中文，机器一般可以翻译得较为准确，但是要把汉语句子“他踢坏了三双鞋”翻译为英文，机器有的翻译为“He plays three pairs of evil shoes”，有的翻译为“He kicked three pairs of shoes bad ”，还有的翻译为“Him kick spoil 3 pairs of shoes”。从这个例子可以看出，由于汉语与英语有着不同的特点，导致机器翻译中把汉语当作源语言要比把英语当作源语言要困难得多。本文试图从汉英机器翻译的角度来探讨汉英机器翻译中的一些关键技术，包括了词法分析、词性标注、语料库构建、统计模型等等层面。二、改进最大匹配法的消歧分词算法在研究汉英机器翻译中，汉语自动分词是一个难题。汉语的书面形式是字与字之间连续书写，词与词之间没有自然的界限，因此，汉语的自然语言理解首先要解决词的自动切分问题，而词的自动切分中，交集型歧义和组合型歧义是不可避免的。即使把交集型歧义和组合型歧义解决得比较好，要把汉语的自动切词正确率提高到99%还是一个相当困难的事情。而且汉语的自动切词正确率即使达到了99%，对于机器翻译来说还是不够。因为机器翻译系统不是以词为单位的，一般是以句子为单位进行处理的，这样一个句子只要有一处切词错误，整个句子就很有可能面目全非了。假设一个切词系统的错误率为1%，在一篇10000 词的文章中，大约出现100 处切词错误，再假设这篇文章中的句子平均长度为10 个词，整篇文章有大约1000 个句子。那么在这些切词错误均匀分布（不过分集中）的情况下，这100 处切词错误就可能导致大约 100 个句子的翻译错误，错误率约为 10%。也就是说，切词阶段的错误率在翻译的过程中将会被“放大” 。但英译汉就不存在这样的问题，因为英语词与词之间本来就有空格这个天然标志。从上面的分析可以看出，从汉语词的“无”切分到英语词的“有”切分存在困难。汉语自动分词的方法很多,但各有其优缺点,用得较普遍的是最大匹配法,但它对歧义问题无能为力。我们可以对它做些改进。 1.设立切分标志英语词与词之间用空格分开,有明显的切分标志。汉语虽不是这样,但还是存在一些自然切分标志,如标点符号,词不能跨越这些标志而存在。另外,也存在一些非自然的切分标志,如只能充当词首的字或充当词尾的字,不构成词的某些单字词、复音节单纯词、拟声词等,词也不能跨越这些标志而存在。设立切分标志首先要建立一个切分标志表并存储于计算机中。在分词时先找到切分标志,这样一来,一个句子链将被分割为若干个短链,然后再用正向最大匹配法切分。 2.算法实现基于最大匹配分词的改进算法的基本思想是