- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于句法的统计机器翻译的翻译规则快速匹配方法
动机 基于森林的翻译 翻译规则匹配 基于已抽取规则的解码 动机 问题 规则匹配和解码非常耗时 规则数量巨大 在265w句对(树高度?3)上生成规则文件大小30G(不过滤) 解码算法优化 Beam search with pruning Cube pruning 规则匹配算法优化? …… 动机 改进匹配算法 提高匹配速度 改进规则表示方法 加载更多规则 放宽参数限制:树高度 现有匹配方法 翻译规则匹配算法 基于树片段的穷举搜索 基于规则的穷举搜索 现有匹配方法 基于树片段的穷举搜索 输入:句法树或森林F,翻译规则表R 输出:匹配的翻译规则 步骤 对于F中每一个结点N 枚举其所有可能以N为根的子树片段 对于每一个子树片段G 将其与r?R中的左端相比较,匹配成功,则返回r 现有匹配方法 基于树片段的穷举搜索 h:句法压缩森林的一个结点 f(h):以h为根的可能的树片段数目 f(h) = 0 如果h为叶结点 否则 现有匹配方法 基于规则的穷举搜索 输入:句法树或森林F,翻译规则表R 输出:匹配的翻译规则 步骤 把r?R的左端按照自顶向下,从左到右的次序分解为超边序列H 按次序取出H中的每个超边h: 按照自顶向下,从左到右的次序与F进行匹配 匹配成功,则返回r 现有匹配方法 基于规则的穷举搜索 对于F中的每个结点需匹配所有规则 R通常规模巨大 实际速度比基于树片段的搜索更慢 规则集的超树表示 基本思想 超树匹配 句法压缩森林和翻译规则集均表示为超树 超树的每个顶点只访问一次 规则集的超树表示 规则集的超树表示 规则集的超树表示 规则集的超树表示 规则集的超树表示 超结点的精简表示 如果超结点没有与之相连的规则,则从根结点到该超结点的超路径不存在对应的翻译规则 超图匹配算法 时间复杂度 N:每个超结点的最大孩子数 M:超结点的最大结点序列数 K:句法压缩森林中每个结点的最大超边数 C:句法压缩森林中具有相同孩子表示的超边数 R:每个结点匹配的树片段的最大数目 时间复杂度: 实验结果 句法分析器: Charniak parser 句法训练集:CTB5 句法规则训练集:FBIS(250k句对) 词对齐:Giza++ 语言模型:Gigaword 3新华部分4元(KN) 开发集:NIST2002 测试集:NIST2003 调参工具:Koehn的改进MERT 实验结果 速度比较 实验结果 树高度对翻译质量的影响 总结 本文提出了一种基于超树的翻译规则匹配方法 新方法比传统方法至少快19倍 新方法第一次公开报告了树高度为5时的基于句法压缩森林翻译模型的BLUE值 对于基于句法压缩森林的翻译模型,树高度为5的BLEU值比树高度为3至少高1点 mitel.ict.ac.cn LOGO Fast Translation Rule Matching for Syntax-based StatisticalMachine Translation基于句法的统计机器翻译的翻译规则快速匹配方法 Hui Zhang, Min Zhang, Haizhou Li, Chew Lim Tan In EMNLP2009 骆卫华报告 2009-6-19 动机 现有匹配方法 规则集的超树表示 基于超树的匹配算法 实验结果 总结 规则表: ( CP ( IP ( VP ) ) ( DEC ) ) the | @_@ | of | @_@ 2:2 1:4 2.3854e-05 1e-07 0.000441261 0.0375863 -3.23683e-05 -0.000515897 -5.32183 -13.0477 1.29399 ( CP ( IP ( VP ) ) ( DEC ) ) to | @_@ | @_@ 1:2 2:3 0.000588023 1e-07 0.0118465 0.0968351 -0.000650801 -0.0136365 -5.32183 -9.75755 34.7395 ( CP ( IP ( VP ) ) ( DEC ) ) to | the | @_@ | @_@ 1:3 2:4 0.000483222 1e-07 0 0.0242182 -0.000552588 -0 -5.32183 -12.1175 3.28033 ( CP (
原创力文档


文档评论(0)