- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
幻灯片0-nlpr.ppt
谢谢! * * * * by Huashen Liang CWMT 2008 评测技术报告 机器智能与翻译实验室 哈尔滨工业大学 2008.11 提交系统 机器翻译: 2 机器翻译系统 + 1 系统融合结果 系统融合: 3 融合系统 机器翻译主评系统概述 Mosses 解码器 4元词形/词性语言模型 基于词性的调序模型 引入句法特征的翻译模型 语言模型特征 4元词形序列 4元词性序列 调序模型特征 Distance Backward-Monotone Backword-Swap Backword-Discontinuous Forward-Monotone Forward-Swap Forward-Discontinuous Translation Model Features F2E 短语翻译概率 F2E 词汇翻译概率 E2F短语翻译概率 E2F词汇翻译概率 短语惩罚 源语言短语结构性分数 目标语短语结构性分数 元结构 (Meta Structure ) 抽取短语及元结构 元结构随短语一起被抽取出来: S4|D S5|E S6|F ||| 源短语 t3|CC ||| 目标短语 D*H ||| 源短语元结构序列 CC 目标语元结构 结构性分数 Translation Model Features F2E 短语翻译概率 F2E 词汇翻译概率 E2F短语翻译概率 E2F词汇翻译概率 短语惩罚 源语言短语结构性分数 目标语短语结构性分数 机器翻译对比系统概述 Mosses 解码器 4元语言模型 调序模型 对齐方法 1 对齐方法 2 融合翻译模型 A 融合翻译模型 B 融合策略 A 融合策略 B 两种对齐方法 GIZA++ HIT-MITLAB Aligner(Yajuan Lv et al., 2003) 统计与字典相结合的方法 采用贪心算法 对齐方法的差异 测试数据: SSMT07 汉英训练数据集 - 815544句 * * 集合 对齐对 H 7,089,061 G 10,675,740 H∩G 4,787,381 H∪G 12,977,420 H-G 2,301,680 G-H 5,888,359 H∩G = 45% *G = 67%*H G : Giza++ H : HIT 对齐质量 定义一个对齐对集合S的平均分数: Plex_f2n Plex_n2f 为双向的词汇翻译概率表 对齐质量 集合 AvgScore_f2n AvgScore_n2f H 0.23 0.26 G 0.19 0.21 H∩G 0.31 0.35 H∪G 0.17 0.18 H-G 0.05 0.06 G-H 0.10 0.10 H∩G H G H∪G H-GG-H 两种融合策略 数据级: 将两种对齐方法产生的对齐语料合并 用合并后的语料训练翻译模型 模型级: 分别用两种对齐结果训练获得两个翻译模型 将两个翻译模型合并,作为最终的翻译模型 两种策略性能比较 训练数据: SSMT07-815544 sentences 测试数据 SSMT07 C-E test data BLEU BLEU after PP UNK H 18.24 18.84 463 G 19.61 20.15 477 Data Level 20.34 20.83 363 Model Level 19.39 19.94 383 CWMT 2008 机器翻译评测结果 汉英新闻 英汉新闻 英汉科技 主系统 0.2051 0.2532 0.3743 对比系统 0.2104 0.2425 0.4620 主系统: 引入元结构特征的短语统计翻译模型 对比系统: 引入对齐融合策略的短语统计翻译模型 语言学分析 (基于 MS-Woodpecker) 汉英新闻 英汉新闻 英汉科技 名词 2 11 11 形容词 5 7 7 动词 2 5 5 代词 3 1 2 副词 2 6 5 量词 - 11 11 数量短语 3 9 5 动词短语 2 6 6 谓宾短语 2 5 5 主谓短语 1 7 8 介宾短语 5 5 7 汉英新闻 英汉新闻 英汉科技 名词 2 11 11 形容词 4 10 10 动词 1 8 8 代词 1 4 4 副词短语 1 4 4 形容词变形 6 3 10 数量短语 10 10 10 连词短语 1 7 7 谓宾短语 1 10 10 主谓短语 2 8 4 中文检测点 英文检测点 主系统在3个评测中的排名: 汉英新闻 (2/12) ; 英汉新闻 (8/11) ; 英汉科技 (7/9) 系统融合 基于加权最小贝叶斯风险的句子级融合.
文档评论(0)