语料混合下的试验结果模型混合下的试验结果.pptVIP

下载本文档

2
0
约1.6千字
约 16页
2017-10-13 发布于天津
举报
版权申诉

语料混合下的试验结果模型混合下的试验结果.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语料混合下的试验结果模型混合下的试验结果

Pseudo In-Domain Data Selection fromLarge-Scale Web Corpus for Spoken Language Translation 作者: 卢世祥彭星源陈振标徐波报告人：李长亮中国科学院自动化研究所数字内容技术与服务研究中心报告框架任务我们的方法实验结论报告框架任务我们的方法实验结论为什么需要领域自适应？双语训练语料通过的不同的方式来自不同的领域大量的训练数据中的“主题”或是“领域”是变化的，这样会导致“训练数据”和“当前翻译任务”不匹配集内数据很小，集外数据很大传统方法数据选择根据集内数据，从集外数据中选择相似的训练数据，运用这些数据训练新的翻译模型主题模型通过主题模型，将集内数据中的先验主题分布转换到集外数据上，进而调整集外短语表的概率分布多领域模型融合将多个不同领域的语料或是模型进行动态或是静态的融合基于数据选择的领域自适应本文中重点讨论基于数据选择的领域自适应方法传统方法的缺陷都是简单的基于词袋模型数据选择方法（如TF-IDF）数据选择模型不准确：没有考虑上下文信息都是单语数据选择模型翻译模型训练数据都是双语数据，单语数据选择模型不全面我们的方法：基于短语的双语数据选择模型报告框架任务我们的方法实验结论基于短语的双语数据选择方法主要思路: 从集外双语语料中选择和集内双语语料相似的数据。集外双语语料网络上抓取的大量双语语料，大多来自双语字幕、双语例句，在形式中跟口语领域很相似，约有1100W句对。集内双语语料 IWSLT提供的双语语料：BTEC和CJK，约38W句对。基于短语的双语数据选择方法双语语料选取步骤 Step 1: 启发式抽取集内语料的短语，分别计算每个短语所包含的信息。公式如下： Step 2:计算集外语料的每个双语句对中所包含的集内短语的信息量，包含的越多，我们认为该句对和集内语料越相似。相似准则中我们同时考虑源语言和目标语言端。报告框架任务我们的方法实验结论实验基线系统开发集：IWSLT05，测试集: IWSLT07 集内双语语料：BTEC 和CJK，约38W句对集外双语语料：网络抓取语料，约1100W句对翻译模型：短语模型选择相似性数据规模实验实验结果开发集：IWSLT05，测试集: IWSLT07 集内双语语料：BTEC 和CJK（约38W）集外双语语料：1100W 语料/模型混合下的实验结果语料混合：集内语料（38W）和选取的集外相似语料（200W）混合在一起，训练翻译模型模型混合：集内语料（38W）和选取的集外相似语料（200W）分别训练翻译模型，解码时同时使用两个翻译模型报告框架任务我们的方法实验结论结论为了提高口语翻译性能，我们从网络收集了大量的双语语料，但是直接使用效果不好。我们提出了一种基于短语的双语的数据选择方法，来筛选语料，提高口语翻译性能。解决的问题基于词袋模型数据选择方法没有考虑上下文信息单语数据选择模型不全面性能提升的结果单纯语料选取可以提高1.6BLEU 语料/模型融合分别可以提高3.9/4.5BLEU 谢谢各位老师和同学！本人由于工作原因，没有及时参会，由李长亮博士代我做报告，报告如有疑问的地方请与我本人联系！给大家带来的不便，敬请谅解！再次感谢各位老师和同学，还有李长亮博士！谢谢！卢世祥，邮箱：shixiang.lu@ia.ac.cn * 基线系统实验结果开发集上相似语料选取规模与翻译性能的实验结果我们发现选取200W句对的时候实验效果最好，接下的实验我们都选取200W句对语料混合下的实验结果模型混合下的实验结果 *