网站大量收购独家精品文档,联系QQ:2885784924

平行语料库在外贸函电机器翻译中应用.docVIP

平行语料库在外贸函电机器翻译中应用.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
平行语料库在外贸函电机器翻译中应用

平行语料库在外贸函电机器翻译中应用   摘 要: 本文介绍了外贸函电平行语料库的构建,重点探讨了外贸函电平行语料库中的语块提取和并列结构处理,使平行语料库的外贸函电机器翻译的质量得到提高。   关键词: 平行语料库 外贸函电 机器翻译 应用      “平行语料”(Parallel Texts)是指使用不同语言撰写、相互间具有“翻译关系”的文本。在计算语言学界,它有别于“对比语料”(Comparable Texts),后者也使用不同的语言撰写,并且针对同一主题,但相互之间却不存在直接的“翻译关系”。人类历史上曾有过各式各样的平行语料。埃及出土的罗塞塔石碑,其碑文用两种语言、三种文字刻成,是颇具盛名的古代的平行语料。通过比较石碑上的文字,法国古代语学者商博良解读了古埃及的象形文字。此外,用不同语言对照书写的契约协议、宗教经典、文学作品也在不同的时期和不同的领域影响着人们的生活。20世纪50年代末,平行语料开始出现在机器翻译研究中。由于当时计算机的存储空间和计算能力有限,而大量文本数据的输入又相当困难,所以平行语料库的作用并没有得到太多的关注。70年代末期,翻译资源的收集工作在Xerox PARC、Brigham Young 等研究中心广泛地开展起来。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,对齐后的平行语料也被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。   外贸函电是国际贸易中进行业务往来的重要工具,属于专门用途英语的范畴。机器翻译(MT)是一项技术,它允许我们用某种语言输入文本然后由计算机将其翻译为(从其自身的字典资源)另外一种语言。MT的目标不是完美的翻译,事实上没有计算机能够做到这一点;而是尽可能地向用户提供其阅读内容的大意。面对海量的外贸信函文件,传统的人工翻译已不能满足时代需要。以Google为典型代表机器翻译作为突破语言障碍的重要技术手段,因其较高的建设效率和翻译质量得到了越来越多的重视,成为当前研究的热点之一。   1.外贸函电平行语料库的构建 ?? 外贸函电是一种相对比较正式的公务文书,其一般目的是建立和保持良好的业务关系、获得或发布供求信息、达成合作和交易等。我们构建的商务信函平行语料库的语料收集范围为商务业务信函,分为建立业务关系函、产品推销函、资信调查函、询盘函、发盘函、还盘函、订购函、销售确认函、签约函、催证审证函、装运通知函、付款方式函、索赔函、保险函等,这些信函涉及外贸活动的全过程。在语料库语言学理论的指导下,我们通过初步建立一个100万词次的英汉双语商务信函平行语料库(包括两个子库:英汉商务信函平行语料库,汉英商务信函平行语料库)。该库为动态的、开放的,可以自动获取服务于机器翻译的知识资源。   2.外贸函电平行语料库中的语块提取   语块提取是近年来语料库语言学和机器翻译研究领域的重点课题。濮建忠教授(2003)把“语块”(chunks)定义为:“语块(词块)是以词形或词为基本单位,由连续或非连续的两个或多个词形或词组合而成的,允许抽象度高于词的单位出现的,有一定使用频率、结构相对完整、能表达一定意义的,有心理现实性的语言形式,以整体形式储存在大脑中,并可作为预制组块供人们提取使用的多词单位。”外贸函电中的语言大多是具有一定的言语程式或行话,如:Enclosed please find...(随函附寄……,请查收),cash on delivery(货到付款)等。Sinclair(1991)认为:那些出现频率高的词汇串成了英语中基本的语言单位,大约70%的英语语言由存储于人体大脑的语言板块构成。确定一个多词单位是否为语块,可以从语块的三个重要特征加以界定和区分,即语块共现的频率性、语块储存和提取的整体性、语块可记忆的韵律性。我们在语块理论的指导下,从结构和功能上明确英汉外贸函电中的语块特征,从而确定提取的具体对象。商务信函语块可分为4种情况:   (1)多词词汇,如:buy cheap and sell dear,firm offer等。   (2)习惯搭配,如:...for your reference,an offer subject to...等。   (3)惯用表达式,如:As requested,...,Enclosed please find...等。   (4)句型框架,如:We look forward to hearing from you...等。   为了进行商务信函平行语料库中的语块提取,我们提出了一套特有的提取方法――外贸函电语块提取法。   外贸函电平行语料库中的语块提取是基

您可能关注的文档

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档