- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
平行语料库在外贸函电机器翻译中应用
平行语料库在外贸函电机器翻译中应用
摘 要: 本文介绍了外贸函电平行语料库的构建,重点探讨了外贸函电平行语料库中的语块提取和并列结构处理,使平行语料库的外贸函电机器翻译的质量得到提高。
关键词: 平行语料库 外贸函电 机器翻译 应用
“平行语料”(Parallel Texts)是指使用不同语言撰写、相互间具有“翻译关系”的文本。在计算语言学界,它有别于“对比语料”(Comparable Texts),后者也使用不同的语言撰写,并且针对同一主题,但相互之间却不存在直接的“翻译关系”。人类历史上曾有过各式各样的平行语料。埃及出土的罗塞塔石碑,其碑文用两种语言、三种文字刻成,是颇具盛名的古代的平行语料。通过比较石碑上的文字,法国古代语学者商博良解读了古埃及的象形文字。此外,用不同语言对照书写的契约协议、宗教经典、文学作品也在不同的时期和不同的领域影响着人们的生活。20世纪50年代末,平行语料开始出现在机器翻译研究中。由于当时计算机的存储空间和计算能力有限,而大量文本数据的输入又相当困难,所以平行语料库的作用并没有得到太多的关注。70年代末期,翻译资源的收集工作在Xerox PARC、Brigham Young 等研究中心广泛地开展起来。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,对齐后的平行语料也被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。
外贸函电是国际贸易中进行业务往来的重要工具,属于专门用途英语的范畴。机器翻译(MT)是一项技术,它允许我们用某种语言输入文本然后由计算机将其翻译为(从其自身的字典资源)另外一种语言。MT的目标不是完美的翻译,事实上没有计算机能够做到这一点;而是尽可能地向用户提供其阅读内容的大意。面对海量的外贸信函文件,传统的人工翻译已不能满足时代需要。以Google为典型代表机器翻译作为突破语言障碍的重要技术手段,因其较高的建设效率和翻译质量得到了越来越多的重视,成为当前研究的热点之一。
1.外贸函电平行语料库的构建
?? 外贸函电是一种相对比较正式的公务文书,其一般目的是建立和保持良好的业务关系、获得或发布供求信息、达成合作和交易等。我们构建的商务信函平行语料库的语料收集范围为商务业务信函,分为建立业务关系函、产品推销函、资信调查函、询盘函、发盘函、还盘函、订购函、销售确认函、签约函、催证审证函、装运通知函、付款方式函、索赔函、保险函等,这些信函涉及外贸活动的全过程。在语料库语言学理论的指导下,我们通过初步建立一个100万词次的英汉双语商务信函平行语料库(包括两个子库:英汉商务信函平行语料库,汉英商务信函平行语料库)。该库为动态的、开放的,可以自动获取服务于机器翻译的知识资源。
2.外贸函电平行语料库中的语块提取
语块提取是近年来语料库语言学和机器翻译研究领域的重点课题。濮建忠教授(2003)把“语块”(chunks)定义为:“语块(词块)是以词形或词为基本单位,由连续或非连续的两个或多个词形或词组合而成的,允许抽象度高于词的单位出现的,有一定使用频率、结构相对完整、能表达一定意义的,有心理现实性的语言形式,以整体形式储存在大脑中,并可作为预制组块供人们提取使用的多词单位。”外贸函电中的语言大多是具有一定的言语程式或行话,如:Enclosed please find...(随函附寄……,请查收),cash on delivery(货到付款)等。Sinclair(1991)认为:那些出现频率高的词汇串成了英语中基本的语言单位,大约70%的英语语言由存储于人体大脑的语言板块构成。确定一个多词单位是否为语块,可以从语块的三个重要特征加以界定和区分,即语块共现的频率性、语块储存和提取的整体性、语块可记忆的韵律性。我们在语块理论的指导下,从结构和功能上明确英汉外贸函电中的语块特征,从而确定提取的具体对象。商务信函语块可分为4种情况:
(1)多词词汇,如:buy cheap and sell dear,firm offer等。
(2)习惯搭配,如:...for your reference,an offer subject to...等。
(3)惯用表达式,如:As requested,...,Enclosed please find...等。
(4)句型框架,如:We look forward to hearing from you...等。
为了进行商务信函平行语料库中的语块提取,我们提出了一套特有的提取方法――外贸函电语块提取法。
外贸函电平行语料库中的语块提取是基
您可能关注的文档
- 巨丰葡萄早期丰产和提早上市技术措施.doc
- 巫文化对中国传统艺术影响.doc
- 差异教学在初中英语教学中实施.doc
- 差异教学应用于大学体育课思考.doc
- 巴班斯基教学过程最优化理论对英语教学改革影响.doc
- 市场化与成人教育“经营力”构建.doc
- 市场对外语人才需求调查问卷统计分析.doc
- 市场经济下企业财务管理所存在问题及对策研究.doc
- 市场经济中政府经济管理职能存在一些弊端及其对策.doc
- 市场经济发展下加强农村成人教育对策研究.doc
- 2025年新疆维吾尔自治区塔城地区和布克赛尔蒙古自治县发展和财政局招聘编外人员考前自测高频考点模拟试.docx
- 2025年江苏省徐州市邳州市事业单位招聘考前自测高频考点模拟试题附答案详解.docx
- 2025年新疆维吾尔自治区和田地区洛浦县机关车辆服务中心招聘考前自测高频考点模拟试题附答案详解.docx
- 2025年新疆维吾尔自治区巴音郭楞蒙古自治州和硕县人民政府所属事业单位招聘考前自测高频考点模拟试题及.docx
- 2025年新疆维吾尔自治区乌鲁木齐市沙依巴克区派出所招聘协(辅)警6人考前自测高频考点模拟试题含答案.docx
- 2025年江苏省苏州市张家港市自然资源局招聘考前自测高频考点模拟试题含答案详解.docx
- 2025年江苏省徐州市沛县发展和财政局招聘编外人员考前自测高频考点模拟试题附答案详解.docx
- 2025年新疆维吾尔自治区塔城地区和布克赛尔蒙古自治县派出所招聘协(辅)警6人考前自测高频考点模拟试.docx
- 2025年新疆维吾尔自治区喀什地区疏附县发展和财政局招聘编外人员考前自测高频考点模拟试题附答案详解.docx
- 2025年新疆维吾尔自治区吐鲁番地区托克逊县事业单位招聘考前自测高频考点模拟试题附答案详解.docx
文档评论(0)