语料混合下的实验结果模型混合下的实验结果.pptVIP

  • 2
  • 0
  • 约1.6千字
  • 约 16页
  • 2017-09-06 发布于天津
  • 举报

语料混合下的实验结果模型混合下的实验结果.ppt

语料混合下的实验结果模型混合下的实验结果

Pseudo In-Domain Data Selection from Large-Scale Web Corpus for Spoken Language Translation 作者: 卢世祥 彭星源 陈振标 徐波 报告人:李长亮 中国科学院自动化研究所 数字内容技术与服务研究中心 报告框架 任务 我们的方法 实验 结论 报告框架 任务 我们的方法 实验 结论 为什么需要领域自适应? 双语训练语料通过的不同的方式来自不同的领域 大量的训练数据中的“主题”或是“领域”是变化的,这样会导致“训练数据”和“当前翻译任务”不匹配 集内数据很小,集外数据很大 传统方法 数据选择 根据集内数据,从集外数据中选择相似的训练数据,运用这些数据训练新的翻译模型 主题模型 通过主题模型,将集内数据中的先验主题分布转换到集外数据上,进而调整集外短语表的概率分布 多领域模型融合 将多个不同领域的语料或是模型进行动态或是静态的融合 基于数据选择的领域自适应 本文中重点讨论基于数据选择的领域自适应方法 传统方法的缺陷 都是简单的基于词袋模型数据选择方法(如TF-IDF) 数据选择模型不准确:没有考虑上下文信息 都是单语数据选择模型 翻译模型训练数据都是双语数据,单语数据选择模型不全面 我们的方法:基于短语的双语数据选择模型 报告框架 任务 我们的方法 实验 结论 基于短语的双语数据选择方法 主要思

文档评论(0)

1亿VIP精品文档

相关文档