网站大量收购独家精品文档,联系QQ:2885784924

统计机器翻译中翻译规则抽取.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计机器翻译中翻译规则抽取

?数据库、信号与信息处理? 统计机器翻译中翻译规则抽取 刘 颖,姜 巍 LIU Ying, JIANG Wei 清华大学 中文系,北京 100084 Department of Chinese Language and Literature, Tsinghua University, Beijing 100084, China LIU Ying, JIANG Wei. Translation rules extraction for statistical machine translation. Computer Engineer- ing and Applications, 2012, 48(32):98-101. Abstract:Aligned phrases are important for Statistical Machine Translation(SMT). Hierarchical phrase model based on phrase tree is provided, which integrates the advantages of string-tree model and hierarchical phrase model. Translation rules are extracted according to aligned phrases and English phrase trees, and heuristic strategies are proposed for determining corresponding syntax labels of new translation rules. Translation quality of SMT using translation rules is better than those of phrase model and hierarchical phrase model. The BLEU score of the model is higher than phrase model and hierarchical phrase model. Key words:statistical machine translation; translation rules; extraction; filtration; BLEU 摘 要:对齐短语是决定统计机器翻译系统质量的核心模块。提出基于短语结构树的层次短语模型,这是利 用串-树模型的思想对层次短语模型的扩展。基于短语结构树的层次短语模型是在双语对齐短语的基础之上 结合英语短语结构树抽取翻译规则,并利用启发式策略获得翻译规则的扩展句法标记。采用翻译规则的统计 机器翻译系统在不同数据集上具有稳定的翻译结果,在训练集和测试集的平均 BlEU 评分高于短语模型和层 次短语模型的BLEU 评分。 关键词:统计机器翻译;翻译规则;抽取;过滤;BLEU 评分 文献标识码:A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.1205-0059 1 引言 近年来基于句法的统计机器翻译模型成为统计 机器翻译的领先模型,串-树模型和层次短语模型是 其中的典型代表。串-树模型是根据源语言串和目标 语言短语结构树进行翻译,这个方法来自 Yamada[1], Galley 扩展了 Yamada 的方法[2-4],其出发点是根据目 标语言短语结构树和词语对齐结果提取翻译规则, 词语对齐结果提供同步上下文无关语法的基本对齐 关系,短语结构树提供同步上下文无关语法的层次 关系,根据这种方法抽取的翻译规则与句法结构基 本保持一致,冲突是由于句法分析错误和词语对齐 错误造成。可以发现,翻译规则实际是对齐短语的 扩展:对齐短语在功能上相当于短语结构树中的单 层非终结结点,短语内部排序相当于该非终结结点 的子结点之间的排序,因此对齐短语相当于利用目 标短语结构树单层信息处理两种语言的不一致性, 汉英双语翻译中的很多现象并不能通过这种单层模 型解释。Galley 提出的翻译规则是多层模型,将串- 串的翻译过程看作是串-树的派生过程[2]。Chiang[5]的 工作提出一种基于形式句法的统计机器翻译模型, 这个模型利用短语层次上的形式句法成分(称之为 层次对齐短语)处理短语之间的排序问题,层次对齐 短语也属于同步上下文无关语法。Chiang 给出这个 模型的形式化描述,并提出一种在传统对齐短语的 基金项目:国家自然科学基金(No。 作者简介:刘颖(1969—),女,博士,副教授,主研方向:自然语言处理;姜巍,硕士。E-mail: HYPERLINK mailto:

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档