平行语料库处理初探：一种排序模型.docVIP

下载本文档

1
0
约 5页
2017-09-21 发布于中国
举报
版权申诉

平行语料库处理初探：一种排序模型.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

平行语料库处理初探：一种排序模型* 陈毅东　史晓东　周昌乐厦门大学计算机系　厦门361005 摘要　十年来，统计方法在机器翻译中的应用得到了广泛的关注，并逐渐成为机器翻译研究的主流方法。构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。目前，多数平行语料库包含着错误或噪音，它们极大影响着统计机器翻译系统的性能。用人工手段来筛选语料库中的句对是费时费力的，本文研究了一种有助于处理这一问题排序模型，该模型考虑了多方面的因素，包括：语言模型、长度信息、意义对应等。鉴于如今的统计机器翻译系统都依赖词对齐信息，词对齐因素也被考虑入本模型中。文章最后的实验及结果表明本模型具有较好的性能。关键词　平行语料库　语料库处理　排序　统计机器翻译 Research on Filtering Parallel Corpus: A Ranking Model Chen Yidong　Shi Xiaodong　Zhou Changle Department of Computer Science, Xiamen University, Xiamen 361005 Abstract　In the past ten years, statistical methods have been more and more popular in the research of Machine Translation. The performance of a Statistical Machine Translation system is dependent on many aspects, such as the translation model, the search strategy and the parallel corpus. Specifically, parallel corpus has become an essential resource for the SMT system. Many parallel corpora contain errors and it’s tiring and time-consuming to filter bad sentence pairs out. In this paper, a model called ranking model that will help dealing with such problem was addressed. In this model, both syntax features and semantics features of sentence pairs are considered. Since most current Statistical Machine Translation models depends on word alignment, features related to word alignment information are also included. At the end of this paper, an experiment was carried out and the results showed that our model had promising performance. Keywords　parallel corpora; corpus filtering; Ranking; statistical machine translation 引言十年来，统计方法在机器翻译中的应用得到了广泛的关注，各种统计模型不断涌现，统计翻译系统的性能得到很大的提升。在近年来的NIST评测中，统计机器翻译系统取得了较好的成绩。统计方法已逐渐成为机器翻译研究的主流方法。构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。目前，随着不断的积累，以及一些自动方法的引进[1, 2]，平行语料库的来源扩展，其规模已经较大，能基本满足要求，但它们的质量却并不高。多数平行语料库包含着大量错误，这些错误有构造平行语料库的原始语料中所存在的错误，如拼写错误、错别字、错误的译文等；也有在构造平行语料库过程中带进来的新错误，如段落对齐或句对齐错误而导致的错误翻译对等。所有这些错误都将影响训练结果的可靠性，进而影响翻译系统的性能。除包含错误以外，多数平行语料库中还包含着一些无法在如今的训练算法中起到贡献的句对。这些句对通常包含成语、特殊翻译方式等，它们本身没有错，也具有良好的互为翻译性，但是，目前低智能的学习方式非但不能从这些句对中受益，反而会受到这些句对的干扰。因而，要构造高性能的统计机器翻译系统，这类句对也