基于混淆网络的机器翻译系统融合技术研究-计算机科学与技术专业论文.docxVIP

基于混淆网络的机器翻译系统融合技术研究-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Classified Index: TP391.2 U.D.C: 681.37 Dissertation for the Master Degree in Engineering RESEARCH ON CONFUSION NETWORK BASED MACHINE TRANSLATION SYSTEM COMBINATION Candidate: Zhang Yu Supervisor: Associate Prof. Yang Muyun Academic Degree Applied for: Master of Engineering Speciality: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: June, 2013 Degree-Conferring-Institution: Harbin Institute of Technology 摘 摘 要 摘要 随着经济全球化的不断发展,跨语言交流的需求不断增长,使用机器翻译实 现自然语言的自动翻译有很大的需求。近年来机器翻译技术不断进步,能够满足 基本的翻译的需求,但是用户对翻译质量的要求不断提高,系统融合技术作为有 效的提升机器翻译质量的方法在评测和实践中被广泛使用。围绕着系统融合技术, 本文的研究主要涉及以下几个方面: (1) 对系统融合性能的影响因素进行了分析。使用系统融合的远景得分作为 评价指标,对参与融合的系统个数和融合候选来源对系统融合性能的影响进行分 析。研究参与融合的系统数量对系统融合远景得分的影响时,本文给出在不同个 数的系统参与融合的情况下所对应的系统融合远景得分。研究融合候选的来源对 系统融合性能的影响时,给出在融合候选来自多个源语言和单个源语言的情况下, 系统融合远景得分随系统个数变化的曲线,给出多源和单源远景得分变化曲线的 对比。最后分析实际的融合方法对系统融合性能的影响,比较了句子级别和词汇 级别系统融合方法在特定数据上的融合结果,实验结果表明词汇级别融合方法优 于句子级别融合方法。 (2) 研究了基于机器学习的融合候选排序问题。参与系统融合的多个系统之 间存在较大的翻译质量差别,使用全部的融合候选参与系统融合所获得的融合结 果并不是最优的,需要从众多的融合候选中选择翻译质量较高的融合候选。本文 使用基于 pair-wise 的排序方法实现融合候选质量排序,这种方法将列表排序问 题分解成大量的二分类问题,从而可以尝试多种现有的分类算法。在使用融合候 选排序的系统融合方法中,首先需要从训练集中训练统计排序模型,接着将统计 模型应用到测试集中每个句子并产生融合候选排序结果,然后使用排名较高的融 合候选参与后续的系统融合。本文将融合候选排序应用到句子级别和词汇级别系 统融合方法中,根据实验结果可以发现,使用融合候选排序并使用高质量的融合 候选参与融合对句子级别和词汇级别融合方法有显著的性能提升。 (3)向现有的系统融合解码使用的对数线性模型中添加局部特征。系统融合 解码时使用对数线性模型给搜索解码空间,现有的对数线性模型中包括语言模型 得分、句子长度、ngram-count 以及词置信度四个常用的特征。语言模型得分是用 从通用语料训练出的语言模型对解码结果进行打分,用于衡量融合结果的流利度。 句子长度用于控制解码结果在合理的限度内。Ngram-count 作为局部信息,对系统 融合性能提升有着显著的作用,因此本文尝试加入更多的局部特征以提升系统融 合的性能。本文尝试在对数线性模型中加入新的局部特征,包括局部语言模型得 分、skip-gram 匹配个数和词后验概率三个特征。本文给出在现有特征的基础上分 别添加三个特征后对应的融合结果得分,并据此分析每一个特征的有效性。同时 我们也给出了不同特征之间的组合对系统融合性能的影响。 对于系统融合,本文首先对系统融合性能影响因素进行实证分析,然后通过 挑选高质量的部分融合候选提升系统融合的性能。最后给出局部特征对系统融合 -I- - -II- 性能的影响。 关键词:机器翻译,系统融合,混淆网络,融合候选排序 Ab Abstract Abstract With the development of internet, there are enormous information or document need exchange between people from different language. Machine translation as an efficient tool for translating between di

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档