关于人机交互的统计翻译方法.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于人机交互的统计翻译方法 刘鹏 宗成庆 中科院自动化研究所 2008.11.28 提纲 1.简介 2.基于人机交互的统计翻译方法 3.实验结果及分析 4.结论 提纲 1.简介 2.基于人机交互的统计翻译方法 3.实验结果及分析 4.结论 简介 问题的提出 Phrase-based SMT采用短语精确匹配的策略 1. 数据稀疏问题严重,特别是长短语 2. 短语表中的大量短语无法得到充分利用 简介 提纲 1.简介 2.基于人机交互的统计翻译方法 3.实验结果及分析 4.结论 短语模糊匹配 短语模糊匹配 Dice系数 编辑距离 扩展句子生成 组合分类器设计——特征选择(1) 组合分类器设计——特征选择(2) 组合分类器设计——分类器训练 SVM工具:LIBSVM 核函数:径向基函数(Radial Basis Function, RBF) 组合分类器设计——融合 融合多个分类器结果的组合分类器在很多方面要优于参加组合的单个分类器 多个参考答案可以训练多个分类器 融合方法:投票规则(Vote Rule) 在测试语料上,将原始翻译结果作为参考答案 人机交互方法 短语模糊匹配采用了基于字符串的相似度, 不能保证语义的一致性 人机交互方法 目的:选择语义保持不变的句子 采用基于有限状态自动机的对话管理模型 基于FSA的对话管理模型 状态集 S0: 初始状态 S1: 对用户提问 S2: 跳转到下一条短语 S3: 输出对应翻译 Sg: 终止状态 状态转移函数 S1?S2 S1?S3 S1?Sg S1?S1 基于FSA的对话管理模型 人机交互流程图 提纲 1.简介 2.基于人机交互的统计翻译方法 3.实验结果及分析 4.结论 实验结果及分析(1) 实验结果及分析(2) 实验结果及分析(3) 提纲 1.简介 2.基于人机交互的统计翻译方法 3.实验结果及分析 4.结论 结论 利用短语模糊匹配生成扩展句子 利用组合分类器判断句子的翻译质量是否有提高 利用人机交互选择语义相同的短语 下一步工作: 分类器特征选择 对话管理模块的改善 * * 我们的目标 通过短语模糊匹配和人机交互,利用更多的短语,提高系统的翻译质量。 Are you here meal-time or out ? Do you eat here or to go ? (1) (2) 源语言句子 扩展句子生成 原始句子: 扩展句子: 未登录短语 两个问题: 找到的相似短语是否能够提高句子的翻译质量? b) 生成的新句子是否与原句语义相同? 人机交互 组合分类器 原则: 扩展句子应该与原始句子非常接近,保证扩展句子的语义不会发生太大的变化。 扩展句子的翻译应该与参考答案非常相似,与参考答案越接近,译文的BLEU得分就越高。 未登录短语 相似短语 原始句子 扩展句子 参考译文 扩展句子译文 扩展句子译文与参考译文的相似度 扩展句子与原始句子的 词性序列相似度 相似程度包括: 1. Dice系数 2. 编辑距离 3. Overlap系数 4. Jaccard系数 5. 长度比值 未登录短语与相似短语的 相似度 扩展句子译文与原始译文之间的解码器打分的比值 解码器打分比值 说明 特征 训练数据生成 1. 在训练语料上生成扩展句子 2. BLEU打分 3. 提取特征 主要工作:设计系统的状态及状态转移函数 系统输入 状态的有限集合 是初始状态 终止状态的集合 状态转移函数 基于有限状态自动机的人机交互模型 实验数据统计 420M, 4,420,370条 10 507句 764句 321,770句 SMT08 24.3M, 394,910条 7 489句 489句 275,882句 SMT07 短语表规模 短语长度限制 测试集 开发集 训练集 任务 在IWSLT2007 及 IWSLT2008 BTEC中英文本翻译任务上进行了实验 实验结果BLEU得分比较 0.3624 0.3804 IMT 0.3543 0.3750 PBMT SMT08 SMT07 系统 PBMT:我们实验室开发的基于短语的统计翻译系统 IMT:基于人机交互的翻译系统 人机交互数据统计 24 39 交互成功句子 1.64 1.57 平均交互次数 313 315 总交互次数 191 201 交互句子数 507 489 句子总数 SMT08 SMT07 任务

文档评论(0)

0520 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档