语料混合下的实验结果模型混合下的实验结果.pptVIP

下载本文档

2
0
约1.6千字
约 16页
2017-09-06 发布于天津
举报

语料混合下的实验结果模型混合下的实验结果.ppt

语料混合下的实验结果模型混合下的实验结果

Pseudo In-Domain Data Selection fromLarge-Scale Web Corpus for Spoken Language Translation 作者: 卢世祥彭星源陈振标徐波报告人：李长亮中国科学院自动化研究所数字内容技术与服务研究中心报告框架任务我们的方法实验结论报告框架任务我们的方法实验结论为什么需要领域自适应？双语训练语料通过的不同的方式来自不同的领域大量的训练数据中的“主题”或是“领域”是变化的，这样会导致“训练数据”和“当前翻译任务”不匹配集内数据很小，集外数据很大传统方法数据选择根据集内数据，从集外数据中选择相似的训练数据，运用这些数据训练新的翻译模型主题模型通过主题模型，将集内数据中的先验主题分布转换到集外数据上，进而调整集外短语表的概率分布多领域模型融合将多个不同领域的语料或是模型进行动态或是静态的融合基于数据选择的领域自适应本文中重点讨论基于数据选择的领域自适应方法传统方法的缺陷都是简单的基于词袋模型数据选择方法（如TF-IDF）数据选择模型不准确：没有考虑上下文信息都是单语数据选择模型翻译模型训练数据都是双语数据，单语数据选择模型不全面我们的方法：基于短语的双语数据选择模型报告框架任务我们的方法实验结论基于短语的双语数据选择方法主要思

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

语料混合下的实验结果模型混合下的实验结果.pptVIP