- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词语对齐的快速增量式训练方法研究-罗维
词语对齐的快速增量式训练方法研究
NLPCC, 北京, 2012年11月4日
罗维
提纲
?研究背景
?研究现状
?研究方法
?论文的主要工作
?基于初始化的增量式训练
?Online EM算法的应用
?总结
?主要参考文献
2
统计机器翻译
?【学术界】模型朝句法、语义方向发展
?基于词
?基于短语
?基于句法
?基于语义
?【产业界】正逐渐走向实用
?百度翻译、有道翻译、谷歌翻译…
统计机器翻译模型
3
统计翻译模型
?构建短语/规则翻译表的一般流程
?注:“解码器”模块省略关于翻译特征的判别式训练的内容。
4
词语对齐
?词语对齐是翻译模型构建的瓶颈,这是因为
?主流的翻译模型均依赖大规模双语语料库的词语对齐结果
?词语对齐需要模型训练,在翻译模型构建中耗时最长
?词语对齐质量影响机器翻译质量
5
词语对齐
?词语对齐是翻译模型构建的瓶颈,这是因为
?主流的翻译模型均依赖大规模双语语料库的词语对齐结果
?词语对齐需要模型训练,在翻译模型构建中耗时最长
?词语对齐质量影响机器翻译质量
?当新增语料时,传统的模型训练方法是合并语料后重
新进行词语对齐模型训练。
5
词语对齐
?词语对齐是翻译模型构建的瓶颈,这是因为
?主流的翻译模型均依赖大规模双语语料库的词语对齐结果
?词语对齐需要模型训练,在翻译模型构建中耗时最长
?词语对齐质量影响机器翻译质量
?当新增语料时,传统的模型训练方法是合并语料后重
新进行词语对齐模型训练。其两大不足:
?时间和计算资源的开销较大
?NIST评测提供的500w平行句对| 曙光5000的计算节点机| 单线程| 4~5天
?当新数据是与原始数据所在领域不同的数据
?传统训练方法得到的模型会与新数据上的真实模型存在较大的偏差。
5
提纲
?研究背景
?研究现状
?研究方法
?论文的主要工作
?基于初始化的增量式训练
?Online EM算法的应用
?总结
?主要参考文献
6
词语对齐的增量式训练
?[Wu 2005]
?模型插值
?应用得到的模型在新数据上生成词语对齐结果
?[Duh 2011]
?对新数据应用贝叶斯估计生成词语对齐矩阵。
7
提纲
?研究背景
?研究现状
?研究方法
?论文的主要工作
?基于初始化的增量式训练
?Online EM算法的应用
?总结
?主要参考文献
8
词语对齐模型
?采用2个基于无监督学习的模型
?IBM模型1 [Brown 93]
?基于HMM模型的词语对齐模型[Vogel 96]
?模型的参数训练算法
?EM算法
9
词语对齐模型的增量式训练
新
数据
原有
数据
训练
新模型
原始模型
训练
10
词语对齐模型的增量式训练
新
数据
原有
数据
训练
新模型
原始模型
训练
10
词语对齐的增量式训练
新
数据
原有
数据
训练
新模型
原始模型
训练
如何用?
10
词语对齐的增量式训练
新
数据
原有
数据
训练
新模型
原始模型
训练
能否优化?
10
提纲
?研究背景
?研究现状
?研究方法
?论文的主要工作
?基于初始化的增量式训练
?Online EM算法的应用
?总结
?主要参考文献
11
基于初始化的增量式训练
12
新语料
模型参数
识别
基于初始化的增量式训练
12
新语料
模型参数
识别
统计量的
经验初始化
累加原始模型
的统计量
模型参数初始化阶段
对统计量
做归一化
得参数初始值
基于初始化的增量式训练
12
新语料
模型参数
识别
统计量的
经验初始化
累加原始模型
的统计量
IBM模型1
参数训练
HMM模型
参数训练
模型参数初始化阶段
参数迭代训练阶段
对统计量
做归一化
得参数初始值
基于初始化的增量式训练
?模型
?参数:词汇化翻译概率t(f| e),扭曲概率d(aj|aj-1, I)
?参数统计量:频度统计值c(f, e),c(aj, aj-1, I)
13
基于初始化的增量式训练
?模型
?参数:词汇化翻译概率t(f| e),扭曲概率d(aj|aj-1, I)
?参数统计量:频度统计值c(f, e),c(aj, aj-1, I)
?为什么用原始模型的参数统计量来初始化,而不
直接用原始模型的参数来初始化?
?不增加计算复杂度。新语料中出现新的模型参数,如t(fnew| e);
?统一的系统架构。后文的online EM算法,在进行新一轮的迭代时,
需要使用现有的统计量。
13
实验_传统中医
?平行语料
?原始数据:来自LDC语料(约125w句对)
?新数据:ctzy语料(约224w句对),选出70w做增量式实验
?语言模型
?在ctzy语料英文端,用srilm工具训练英文端
文档评论(0)