基于Systran翻译本地化难点概述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Systran翻译本地化难点概述

基于Systran翻译本地化难点概述   摘 要: 由于汉语与英语有不同的特点,导致机器翻译时把汉语当做源语言要比把英语当做源语言要困难得多。本文试图从汉英机器翻译的角度探讨汉语自动分析的难点,包括词法分析、句法分析和汉英转换中的难点。 关键词: 计算机翻译 Systran 词语切分 未登录词 在我国,外汉机器翻译系统,特别是英汉机器翻译系统的研制已经取得较大的成功,达到初步实用的水平,并且推出不少实用系统,如“译星”、“汉神”、“通译”等。但汉外机器翻译,特别是汉英机器翻译的研究却进展缓慢,离实用化还有一定的距离。例如要把英文句子“We should do our utmost to achieve our goalin life.”翻译为中文,机器一般可以翻译得较为准确,但是要把汉语句子“他踢坏了三双鞋。”翻译为英文,机器有的翻译为“He plays three pairs of evil shoes.”,有的翻译为“He kicked three pairs of shoes bad.”,还有的翻译为“Him kick spoil 3 pairs of shoes.”。这些软件翻译的问题主要存在于词法、句法和语法几个方面。 1.词法分析的难点 1.1词语切分 汉语的书面形式是字与字之间的连续书写,词与词之间没有自然的界限,因此,汉语的自然语言理解首先要解决词的自动切分问题,而词的自动切分中,交集型歧义和组合型歧义是不可避免的。即使把交集型歧义和组合型歧义解决得比较好,要把汉语的自动切词正确率提高到99%也是一个相当困难的事情。而且汉语的自动切词正确率即使达到99%,对于机器翻译来说也是不够的。因为机器翻译系统不是以词为单位的,一般是以句子为单位进行处理的,这样一个句子只要有一处切词错误,整个句子就很有可能面目全非。 1.2未登录词 未登录词指没有被分词词表收录的词语,包括人名、地名、机构名等专有名词和新出现的词语。未登录词是不可穷尽登录的,如人名、地名,几乎可以看成是无限的,新词也是不断产生的。未登录词包括专名和非专名两大类,专名包括人名、地名等,非专名包括新词、简称、行业用语、部分习语、俗语,等等。未登录词不仅在汉语中存在,英语中也存在未登录词,不过,英语中的未登录专名名词有形式标志,其首字母是大写的,但汉语中的未登录词不仅没有形式标注,而且组成汉语未登录词的汉字可能本身又是汉语词,也就是说,汉语的未登录词容易与普通词语混淆。 1.3词表 英语中的词是基本确定的,汉语中的词却很难确定,或者说汉语中的词没有一个统一的标准。词是最小的能够独立运用的语法单位,语素是最小的语音语义结合体,短语是词与词按照一定语法规则构成的语法单位。词和语素、短语是不同层次和不同性质的语法单位,但由于汉语中的词和自由语素、短语都能单说或单用,因此要分清词、语素和短语比较麻烦。举一个例子,“肉”是一个词,“猪肉”、“鸡肉”、“狗肉”倾向于是一个词,“海豹肉”、“海豚肉”倾向于是一个短语,“果子狸肉”、“猫头鹰肉”就更倾向于是一个短语。可以看出,汉语的词的确认是一个比较困难的事情,这是迄今为止国内还没有一个统一的供机器使用的词表的原因,而词表是自然语言处理的基础,机器翻译中绝大多数知识和规则都依赖于词表而建立,这样就加大了汉语自动分析的难度。 2.句法分析的难点 2.1核心动词的分析 对于句法分析而言,抓住谓语中心词就意味着这个句子有可能分析准确,如果连谓语中心词都找错了,就意味着这个句子不可能分析准确。例如“王先生邀请她一起开车出去玩。”,对这个句子进行分词、词性标注等预处理后得到:王/n先生/n邀请/v她/r一起/d开21.720.9车/v出去/v玩/v。然而,其中有可能充当谓语中心词的有:“邀请”、“开车”、“出去”、“玩”。由于汉语属于分析语言,缺乏明显的形态标记,在这些词中选出一个正确的谓语中心词,是一个非常复杂的问题。 2.2特殊结构的处理 汉语中的某些特殊结构是汉译英系统较为棘手的问题,包括连动式、兼语式、受事主语句、主谓谓语句、名词谓语句、动补式等。连动式由若干个动词或动词短语相互连接,没有明显的形式标志,机器往往难于确定其中的主要动词,如果主要动词的判定有误,整个结构的分析必定失败。 2.3标点符号的影响 现有的机器翻译系统一般都是以句子为单位进行翻译的,但是要确认汉语的句子却不是一件简单的事情。汉语“句子”的随意性太大,短的可以只有一个词(独词句)或一个短语,长的句子可以是一个复句,甚至可以是一个段落。这样,当遇到一个特别长的汉语句子时,如果作为一个整体处理,往往会带来巨大的时空开销,而且这样做增加了分析的难度;而分成几个小句来处理

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档