面向机器翻译的复述技术研究-计算机应用技术专业毕业论文.docx

面向机器翻译的复述技术研究-计算机应用技术专业毕业论文.docx

国内图书分类号:TP391.2 学校代码:10213 国际图书分类号:681.324 密级:公开 工学博士学位论文 面 向 机 器 翻 译 的 复 述 技 术 研究 博 士 研 究 生 : 和 为 导 师 : 刘 挺 教 授 副 导 师 : 王 海 峰 教 授 申 请 学 位 : 工学博士 学 科 、 专 业 : 计算机应用技术 所 在 单 位 : 计算机科学与技术学院 答 辩 日 期 : 2012 年 12 月 授 予 学 位 单 位 : 哈尔滨工业大学 Classified Index:TP391.2 U. D. C.:681.324 Dissertation for the Doctoral Degree in Engineering Paraphrasing for Machine Translation Candidate: He Wei Supervisor: Professor Liu Ting Co supervisor: Professor Wang Haifeng Academic Degree Applied for: Doctor of Engineering Specialty: Computer Application Technology Affiliation: School of Computer Science and Technology Date of Defence: December, 2012 Degree-Conferring-Institution: Harbin Institute of Technology 摘 摘 要 摘 要 随着互联网的迅猛发展,跨语言的交流与合作日益增多,导致人们对机器 自动翻译的需求变得愈加强烈。然而目前的机器翻译生成的译文质量较低,存 在大量漏译、错译,甚至完全不通顺等现象,很难满足用户的实际需求。因此, 如何快速有效地提高机器翻译质量近年来成为了学术界和工业界共同关注的问 题。 复述,是指在同一种语言内,在语义不变的前提下,对原始形式的不同表 达。通过复述方法,可以对单词、短语,甚至是句子产生形式上的变化,从而 实现某些特定的目标。近年来,复述作为一种底层技术,在自然语言处理的很 多应用中展现了重要的作用。尤其在机器翻译领域,由于复述与机器翻译相比 具有更广泛的获取来源,同时可以使用更丰富的语言特征,所以利用复述技术 来提高机器翻译质量具有重要的实践意义。本文的主要工作是研究通过复述技 术扩展机器翻译的双语训练语料以及改写输入句子的几种方法。对于前者,我 们分别尝试了基于统计的复述模型和基于依存分析和句子生成的复述模型两种 不同的复述方法;对于后者,我们则是从两个不同的角度,传统的机器翻译和 目前互联网上比较流行的辅助翻译,研究了基于复述改写输入句子对最终译文 质量的影响。 首先,本文通过基于统计的复述生成的方法对机器翻译的双语平行语料进 行扩展,目的是解决机器翻译系统覆盖率不足的问题。方法对双语语料的源语 言句子生成复述句,然后与对应的目标语言句子一起形成新的双语平行语料。 在统计复述生成框架中,我们使用句子新颖度模型作为目标函数,目的是为机 器翻译模型选择包含最多新信息的复述结果。同时,我们通过复述概率模型和 语言模型来保证生成的复述句子的准确程度和流利程度。在最终的实验中,通 过我们的方法改进的翻译模型,在不同规模的数据集上均显著地超过了目前主 流的机器翻译系统。 其次,本文通过另一种基于依存分析与句子生成的复述方法,对机器翻译 的双语平行语料进行扩展。首先对输入句子进行依存分析得到依存树,然后以 I ─ 哈尔滨工业大学工学博士学位论文 哈尔滨工业大学工学博士学位论文 依存树作为输入进行句子生成,取概率得分最高并且与原句不同的结果,就得 到了一个与原句语义相同但单词顺序不同的复述句子。通过这种方法扩展双语 平行训练语料,可以在不引入额外语料资源的前提下,更深层次地挖掘双语平 行训练语料中包含的语言学现象,进而提高训练得到的翻译模型对输入文本的 覆盖程度。 再次,本文提出了一种新的利用反向翻译从机器翻译的双语平行训练语料 中抽取复述规则的方法。在不借助额外复述资源的前提下,我们对双语平行语 料的源语言部分和目标语部分的“目标语言——源语言”翻译结果进行比较, 从而获取复述规则。得到的复述规则可以涵盖单词、短语和句子结构三种级别 的复述变化。通过应用这些复述规则来改写机器翻译系统的输入句子,可以让 句子向机器翻译训练语料覆盖的方向产生复述变化,从而使得输入句子变得更 容易被翻译,最终更容易获得高质量的译文。 最后,本文研究了利用复述技术对例句检索式辅助翻译系统的输入查询进 行改写的方法。由于目前的自动机器翻译质量无法满足用户的实际

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档