- 1
- 0
- 约1.6千字
- 约 16页
- 2017-10-16 发布于天津
- 举报
接下的试验我们都选取200w句对
Pseudo In-Domain Data Selection fromLarge-Scale Web Corpus for Spoken Language Translation 作者: 卢世祥 彭星源 陈振标 徐波 报告人:李长亮 中国科学院自动化研究所 数字内容技术与服务研究中心 报告框架 任务 我们的方法 实验 结论 报告框架 任务 我们的方法 实验 结论 为什么需要领域自适应? 双语训练语料通过的不同的方式来自不同的领域 大量的训练数据中的“主题”或是“领域”是变化的,这样会导致“训练数据”和“当前翻译任务”不匹配 集内数据很小,集外数据很大 传统方法 数据选择 根据集内数据,从集外数据中选择相似的训练数据,运用这些数据训练新的翻译模型 主题模型 通过主题模型,将集内数据中的先验主题分布转换到集外数据上,进而调整集外短语表的概率分布 多领域模型融合 将多个不同领域的语料或是模型进行动态或是静态的融合 基于数据选择的领域自适应 本文中重点讨论基于数据选择的领域自适应方法 传统方法的缺陷 都是简单的基于词袋模型数据选择方法(如TF-IDF) 数据选择模型不准确:没有考虑上下文信息 都是单语数据选择模型 翻译模型训练数据都是双语数据,单语数据选择模型不全面 我们的方法:基于短语的双语数据选择模型 报告框架 任务 我们的方法 实验 结论 基于短语的双语数据选择方法 主要思路: 从集外双语语料中选择和集内双语语料相似的数据。 集外双语语料 网络上抓取的大量双语语料,大多来自双语字幕、双语例句,在形式中跟口语领域很相似,约有1100W句对。 集内双语语料 IWSLT提供的双语语料:BTEC和CJK,约38W句对。 基于短语的双语数据选择方法 双语语料选取步骤 Step 1: 启发式抽取集内语料的短语,分别计算每个短语所包含的信息。公式如下: Step 2:计算集外语料的每个双语句对中所包含的集内短语的信息量,包含的越多,我们认为该句对和集内语料越相似。相似准则中我们同时考虑源语言和目标语言端。 报告框架 任务 我们的方法 实验 结论 实验 基线系统 开发集:IWSLT05,测试集: IWSLT07 集内双语语料:BTEC 和CJK,约38W句对 集外双语语料:网络抓取语料,约1100W句对 翻译模型:短语模型 选择相似性数据规模实验 实验结果 开发集:IWSLT05,测试集: IWSLT07 集内双语语料:BTEC 和CJK(约38W) 集外双语语料:1100W 语料/模型混合下的实验结果 语料混合:集内语料(38W)和选取的集外相似语料(200W)混合在一起,训练翻译模型 模型混合:集内语料(38W)和选取的集外相似语料(200W)分别训练翻译模型,解码时同时使用两个翻译模型 报告框架 任务 我们的方法 实验 结论 结论 为了提高口语翻译性能,我们从网络收集了大量的双语语料,但是直接使用效果不好。 我们提出了一种基于短语的双语的数据选择方法,来筛选语料,提高口语翻译性能。 解决的问题 基于词袋模型数据选择方法没有考虑上下文信息 单语数据选择模型不全面 性能提升的结果 单纯语料选取可以提高1.6BLEU 语料/模型融合分别可以提高3.9/4.5BLEU 谢谢各位老师和同学! 本人由于工作原因,没有及时参会,由李长亮博士代我做报告,报告如有疑问的地方请与我本人联系!给大家带来的不便,敬请谅解! 再次感谢各位老师和同学,还有李长亮博士!谢谢! 卢世祥,邮箱:shixiang.lu@ia.ac.cn * 基线系统实验结果 开发集上相似语料选取规模与翻译性能的实验结果 我们发现选取200W句对的时候实验效果最好,接下的实验我们都选取200W句对 语料混合下的实验结果 模型混合下的实验结果 *
您可能关注的文档
最近下载
- DHG9070A型电热鼓风干燥箱说明书.pdf VIP
- 【老照片】1966年-1967年的彩色中国.docx VIP
- 蒙特利尔认知评估量表.doc VIP
- 解放前后大不同.连环画.1950年.pdf VIP
- 2026年济南工程职业技术学院单招《数学》题库含完整答案详解【考点梳理】.docx VIP
- 1949--1989年国产老电影目录.doc VIP
- 1949--166年国产老电影目录.doc VIP
- 简易精神状态检查量表(-MMSE).doc VIP
- LNG-CNG-LPG(液化石油气、液化天然气、压缩天然气)汽车、罐车事故处置.pptx VIP
- 简易精神状态检查量表(MMSE).docx VIP
原创力文档

文档评论(0)