平行文本中对应词语序列识别和应用探究.docVIP

下载本文档

9
0
约7.32千字
约 13页
2017-11-08 发布于福建
举报
版权申诉

平行文本中对应词语序列识别和应用探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

平行文本中对应词语序列识别和应用探究

平行文本中对应词语序列识别和应用探究　　摘要：平行文本中存在大量的词语序列式的翻译对等，这些序列虽然不是翻译过程中最小的语言单位，但它们高频出现，体现了跨语言交际的意义实现机制和文本构成特点。本文基于交大平行语料库数据，重点介绍对应词语序列的识别和界定标准，以及对应词语序列在平行文本对齐和对比短语学等方面的相关应用研究，具体包括：双语双向的多级别对齐、词语搭配的对应、对应序列的形式与意义研究等。关键词：对应词语序列；意义单位；平行文本对齐；对比短语学中图分类号：H319.3 文献标识码：A 文章编号：1001-5795（2013）05-0036-0005 1 对应词语序列的研究背景语言是一个双项系统：由单词和语法规则构成的分析体系以及由意义单位构成的规约体系。前者基于开放选择原则，后者通常遵守成语原则。Sinclair（1991：114）曾指出成语原则是语言组织的重要基础，符合语言使用中信息处理的经济原则，而意义单位承载了大量的语言信息和文化内涵，体现了意义表达的概念结构。传统的语言描述理论倾向于把单个的词项作为意义单位，而语料库语言学则认为语言交际过程中的意义实现并非基于单个词项的选择，而是基于各种各样词组的选择；意义单位不是单个的词项，而是词语序列。这是因为处于同一语境的单词，其意义相互影响、相互感染，意义在语境中弥漫，其间没有截然的区隔点，我们很难准确地区隔词义的边界，因此往往是由多个单词组成的词语序列在表达明确的意义（卫乃兴，2011a：29-34）。这些词语序列根植于真实的语言使用，密切相关于语言的因循性和成语性，对文本的构筑作用远远超出传统语言理论所能作出的估计。然而，意义单位的概念是在单语视角下提出的。在平行语料库研究中，很多研究者尝试从双语或多语的视角下来探讨平行文本的意义实现机制。Newmark首先提出了“翻译单位”（translation unit）的概念，将其定义为“可以作为一个单位整体翻译的最小语言片断”（Newmark，1988：54）。Teubert则认为翻译单位是“翻译中最小的无歧义的语言单位”（转引自Wang2006：2）；它可以由一个核心词和同语境下所有的单词构成，并且在目标语中只有一个翻译对等，如果存在多个对应表达，则这些表达具有同义关系（Teubert，2004：184-185）。虽然Teubert也指出“在双语语境下，研究者应该关注更大的语言单位的翻译对等，而不是单个词之间的对应”（转引自Wang，2006：1），但是定义中“最小的无歧义的语言单位”往往将翻译单位的研究范围限定在了单词之间的相互对应，而且确立后的翻译单位意义表达仍不稳定，其“无歧异”的属性很难得到真正意义上的保证。这是因为有些单词本身的意义就是多元的，一组翻译单位可能在原语境中无歧异，但脱离了语境，表达的意义则会变得模糊。因此，李文中进一步提出了“对应单位”（corresponding unit）的概念，即“对应源文本和目的文本中任何可识别的文本块或片断。对应单位具有意义的完整性和相同性，并且具有各自的句法结构特征”（李文中，2010：22）。对应单位不仅是对翻译单位属性的调整，更是对其范围的扩容，成功地将更多的有意义的翻译对等纳入了意义研究的范畴。然而，“任何可识别的文本块或片断”没有严格地限定对应单位的语言类别。从理论上讲，单词级、短语级、句子级、甚至更大级别的篇章翻译，都可以视为作对应单位，这不仅模糊了对应单位的特征，也增添了识别和提取的难度。在平行语料库的建设过程中，我们发现平行文本中存在大量的词语序列式的翻译对等，内容涵盖了搭配、复合词、习语、固定和半固定词组、以及大量不完整的词语片语等复杂语言形式。这些表达虽然不是翻译过程中最小的语言单位，但是它们高频出现，对应严谨，且意义边界清晰，对平行文本的构筑作用不容忽视。因此，我们提出了“对应词语序列”的概念，着眼于词语序列式的翻译对等，简称为“对应序列”。本文将基于新建的交大平行语料库数据，重点讨论对应词语序列的识别和界定标准，以及对应词语序列在平行文本对齐和对比短语学研究等方面的应用意义。 2 交大平行语料库上海交通大学英汉双向平行语料库（以下简称为交大平行语料库）采用的是多引擎机制的研究体系，主要服务于确立双语对应词语序列、建立存储对应序列的数据库、及实现短语、句子、段落等不同层级的对齐等。交大平行语料库收集了国际政治、科技、人文三个学科领域的双语双向平行文本共计215713句，总库容为8989638字（词）次，其中英语文本有6170篇，总形符3626890词次、类符54973词；汉语文本6170篇，总形符5362748字次、类符4607字。全库包含的双向翻译文本信息如下：汉语原语文本1906篇，共1