- 2
- 0
- 约1.6千字
- 约 16页
- 2017-09-06 发布于天津
- 举报
语料混合下的实验结果模型混合下的实验结果
Pseudo In-Domain Data Selection fromLarge-Scale Web Corpus for Spoken Language Translation 作者: 卢世祥 彭星源 陈振标 徐波 报告人:李长亮 中国科学院自动化研究所 数字内容技术与服务研究中心 报告框架 任务 我们的方法 实验 结论 报告框架 任务 我们的方法 实验 结论 为什么需要领域自适应? 双语训练语料通过的不同的方式来自不同的领域 大量的训练数据中的“主题”或是“领域”是变化的,这样会导致“训练数据”和“当前翻译任务”不匹配 集内数据很小,集外数据很大 传统方法 数据选择 根据集内数据,从集外数据中选择相似的训练数据,运用这些数据训练新的翻译模型 主题模型 通过主题模型,将集内数据中的先验主题分布转换到集外数据上,进而调整集外短语表的概率分布 多领域模型融合 将多个不同领域的语料或是模型进行动态或是静态的融合 基于数据选择的领域自适应 本文中重点讨论基于数据选择的领域自适应方法 传统方法的缺陷 都是简单的基于词袋模型数据选择方法(如TF-IDF) 数据选择模型不准确:没有考虑上下文信息 都是单语数据选择模型 翻译模型训练数据都是双语数据,单语数据选择模型不全面 我们的方法:基于短语的双语数据选择模型 报告框架 任务 我们的方法 实验 结论 基于短语的双语数据选择方法 主要思
您可能关注的文档
最近下载
- 再论《大般涅槃经》的阐提佛性说.docx VIP
- 《火龙果反季节栽培技术规程》.doc VIP
- 妊娠期易栓症筛查与治疗总结2026.pptx VIP
- DB5101_T 185-2024 成都市地栽花卉栽植技术规程.docx VIP
- 宣贯培训(2026年)《JBT 14355-2023发动机尾焰测温用钨铼热电偶丝》.pptx VIP
- 2025年北京市高考数学试卷真题(含答案解析).docx
- 公路工程竣工验收鉴定书.pdf VIP
- (2023正式版)JBT 14355-2023 发动机尾焰测温用钨铼热电偶丝 .docx VIP
- 《心源性猝死课件讲》课件 .ppt VIP
- 安卓手机数据恢复大师揭秘怎样恢复手机通话记录.docx VIP
原创力文档

文档评论(0)