初中英语论文双语平行语料库对齐技术述评.docVIP

下载本文档

0
0
约1.12万字
约 6页
2017-02-10 发布于北京
举报
版权申诉

初中英语论文双语平行语料库对齐技术述评.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

初中英语论文双语平行语料库对齐技术述评

双语平行语料库对齐技术述评　　对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小，有篇章、段落、句子、短语、词等不同的层次。粒度越小，提供的语言信息就越多，应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译，句子之间并不都是一对一的翻译模式，还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度，特别是对更细粒度级别的对齐。由于语言之间存在着差异，找到固定的对应翻译很难，再加上文本预处理工具难以保证处理效果，以及一些电子文本的噪声纷繁复杂，这都增加了对齐的难度。而对于英汉两种差别很大的语言来说，目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术，然后分析了国内在对齐中所使用的技术，旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。　　　　1 目前平行语料库对齐技术的现状　　　　1.1 句子级对齐技术　　在各级对齐研究中，其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种：基于长度的方法(length-based)(Brown et al,1991; Gale Church, 1991a)；基于词汇的方法(lexical-based)(Kay Roscheisen, 1993)；混合法(combination)(Tan Nagao, 1995; Wu,1994)。　　基于长度的方法最早是由Brown和Gale提出，虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出，但其侧重点却不同。Brown的算法以词为单位计算句子的长度，而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验，准确率达96~97%。然而该方法在处理复杂句子的对齐(如21或22的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时，准确率却并不高，而且此算法一旦出错，便不可能自动纠正。　　基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性，但却费时；而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进，这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比，这一算法不仅正确率高，而且在处理大量省略的对齐中能轻易确定省略的位置，且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。　　如前所述，基于词汇的方法相对可靠精确，但计算起来相当复杂且速度较慢；而基于长度的算法模型虽然简单，独立于语言知识和外部资源，但鲁棒性不好，极易造成错误蔓延。由于每种方法都有自己的优缺点，人们试图将各种方法混合起来找到问题的解决途径(Tan Nagao, 1995; Wu,1994; ;Collier,1998; Vronis，1999；Melamed，2000)。试验结果表明，混合的方法优于单纯使用其中的任何一种方法。　　1.2 词汇级对齐技术　　与句子对齐相比，词汇对齐的应用价值更加直接。目前词对齐主要有基于统计(也称为基于同现)的方法、基于词典和语言学知识的方法。　　基于统计的方法是通过大规模双语语料的统计训练，获得双语对译词的同现概率，以此来获得对齐。一种统计法是基于机器翻译模型的词汇对齐法(Brown et al., 1993，吴尉林，2003 )。此法用词汇对齐模型来实现翻译模型并通过EM(expectation-maximization)算法来进行词汇对齐。但是该方法不仅在运行时需要很大的内存空间，而且EM算法本身也缺乏鲁棒性。另一种统计法是基于同现的词汇对齐(Gale Church,1991b; Zhang Ying et al., 2001)。其中，Gale Church 用同现测度函数对译双语词汇，通过统计对译词在双语句对中同现的频率来确定双语词汇之间的对应关系，并为每个双语词对引入一个联列表(Contingency Table)。基于同现的对齐算法简单，鲁棒性也比EM算法好，但是该方法在计算时没有考虑词汇的上下文关系，因此获得的词汇翻译对应存在着间接相关的问题。　　基于词典和语言学知识