规则的英汉翻译技术报告景元.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
规则的英汉翻译技术报告景元

基于规则的英汉翻译技术报告 1 背景情况 FreeartTrans英汉全文翻译系统是由西安汇申软件有限公司自主投资研发的基于规则的英汉全文全自动精确翻译软件。基于规则的机器翻译系统就是对语言语句的词法、语法、语义和句法进行分析、判断和取舍,然后重新排列组合,生成等价的目标语言。本系统是根据全新的机器翻译理论(MT)建立起的“翻译仿生学”模型,依托本公司独创的“成分识别系统”和“综合立体释义选择系统”在机器翻译过程中尽可能地模拟人类的翻译行为,从而大幅度提高机器翻译的准确率。 FreeartTrans参加了本次第四届全国机器翻译研讨会(CWMT2008)英汉新闻领域机器翻译评测项目。 2 系统结构 FreeartTrans从结构上分搜索引擎、成分识别、释义选择三个大部分。 2.1 搜索引擎 搜索引擎首先对要翻译的英文资料标点符号等纠错,保留格式后,分成单句。分句中还要处理直接引语和缩写识别等问题。Say、think、shout、muse、clamor、clamour、state、announce、declare、assert、respond、return、continue、greet、exclaim、remark、whisper、order、call、suggest、advise、urge、cry、answer、add、reply、acknowledge、retort、quiz、complain、query、demand、inquire、counsel、proclaim、cheer、hail、mumble、mutter、murmur、utter、laugh、smile、answer、argue、report、persuade、go on等引导的直接引语需要对引号内的句子分句,如果有主谓语倒置的情况还需要对主谓语还原。 如:“People have a variety of emotion,” argues Harvard, “Some people handle anger well but can‘t handle fear. So each emotion has to be viewed differently.”需要还原成Harvard argues ,“People have a variety of emotion,Some people handle anger well but can’t handle fear. So each emotion has to be viewed differently.”。型如U.S.、Mr.、www.等带.标点的缩写从形式上会对分句产成干扰,对缩写的识别可以消除这一问题。 搜索引擎完成了搜索句中每个单词的词性,释义,合成词识别、数词识别,时间年月识别,固定表达等识别,短语、模式、规则等的搜索匹配。搜索引擎是句子翻译的起点,同时贯穿释义选择的整个过程。搜索引擎首先建立每个单词的词性、属性、文体属性、语义属性等信息,为成分识别和释义选择提供服务,在释义选择的过程中搜索引擎需要针对一些短语、模式或规则进行关联搜索匹配,提供翻译的服务。 2.2成分识别 成分识别的工作过程就是利用在数据库中的上千个属性和定义对英语进行解析的过程。这个解析的过程是FreeartTrans最核心的部分,需要解析出所有的词性、底层短语、底层短语内成分、所有一级成分(就是能够在主句中担任成分的成分)、所有的从句等。分析出的结果还要进行各自环节的进一步处理,比如识别出一个短语后,要对短语内所有成分进行分析;比如识别出一个一级成分后,要对这个成分进行翻译方案确定和翻译定位,同时还要对这个一级成分中所有的内成分进行处理等。 成分识别的目的就是要让机器“看懂”英语,通过英语的最小的要素一步一步地分析出一级成分来。这个过程需要解决很多语言多重理解、多词性词的处理和语义歧义等问题。英语句子解析完毕后,整个句子的整体工作就已经完成了大半。 2.2.1底层短语识别 在词库详尽的词性、属性基础上实现了语法意义上短语的识别。底层短语需要识别出12种不同的短语来,同时要对这些短语进行解析和翻译定位。 短语的类别包括:名词短语、介词短语、代词短语、数词短语、形容词短语、副词短语、动词短语、不定式短语、ing分词短语、ed分词短语、从句引导词、并列连词 短语识别需要在一般陈述句的基础上进行识别。英语句子的多样性会对短语识别的结果产生影响。为了避免影响需要处理一些特殊情况,我们引进了省略还原、句型转化等机制。如’s、’d的省略,动词不定式符号to的省略等语言现象,需要先还原正常表达形式,再进行识别。 The boy’s looking at the tall tree.需要还原成The boy is looking at t

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档