一种基于短语统计翻译的汉维机器翻译系统课件.pptVIP

下载本文档

3
0
约2.7千字
约 17页
2015-09-11 发布于上海
举报
版权申诉

一种基于短语统计翻译的汉维机器翻译系统课件.ppt

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于短语统计翻译的汉维机器翻译系统杨攀报告内容引言系统简介解码器实现相关实验总结引言新疆地区的官方使用的语言文字有汉语、维吾尔语、哈萨克语、柯尔克孜语、蒙古语等，在这些少数民族语言文字中，除了蒙古语外，维吾尔语、哈萨克语、柯尔克孜语都属于一个语族(突厥语族)。正是这种少数民族语言文字的构成，使少数民族语言文字信息技术的开发与应用成为新疆信息化建设当中不可或缺的一个重要方面，也是国家信息化建设的基础之一。由于维吾尔语的黏着特性，汉语-维吾尔语之间的语言差异很大，所以研究汉维机器翻译技术具有重要意义。引言自1990年IBM公司的P.Brown等人提出基于信源信道思想的统计翻译模型之后，统计机器翻译越来越受到研究者的重视。基于短语的统计机器翻译模型在近几年的统计机器翻译研究中占据了主导地位。统计机器翻译的优点是在不考虑语言特点的情况下借助于双语平行语料库直接构建一个机器翻译系统，但因此会忽略特定语言的复杂性。目的是尝试借助汉维语料库构建一个汉维机器翻译系统，这样可以为进一步研究汉维机器翻译打下基础。系统简介汉维翻译系统基本框架: 系统简介语言模型语言模型是自然语言的数学模型，它主要描述自然语言的统计和结构方面的内在规律。 N-gram统计语言模型是统计语言模型的一种。它主要根据历史N-1个词，来决定第N个词可能出现的概率。N-gram语言模型的概率表示通常由最大相似度来估计。N-gram的句子概率的数学公式如下所示：系统简介翻译模型基于短语的统计机器翻译的最大特点就是其翻译模型为短语级的。典型的翻译过程是将输入的句子划分成短语，然后将每一个短语翻译成相应的译文短语，在翻译的过程中可以对译文的短语序列重新排序。短语翻译模型的构建需要对语料库中的进行短语的划分，同时对划分的短语进行概率计算。通过短语划分（抽取）得到双语对齐的短语对，短语对的对齐效果和短语对的评分结果直接影响到短语翻译模型的好坏。系统简介附加模型扭曲模型就是对源短语位置重排的范围进行惩罚的。公式如下：词语惩罚模型计算译文的单词个数作为其惩罚值加入到模型中来，这样可以结合词语惩罚模型的权重值对译文长短的选择。公式如下：短语惩罚模型计算在构建译文的过程中所使用的源短语的个数。短语惩公式如下：解码器实现解码器简介解码器的任务是用从训练文本中学习到的语言模型、翻译模型以及其他附加模型的信息来确定源句子最可能的翻译句子。本文采用动态规划思想的柱搜索（beam search）算法实现解码搜索功能。解码器的实现原理在对数线性模型方法下，将所有的模型信息加入进来后，解码就是在下式中搜索最大模型评分的t的算子：解码器实现柱搜索(beam search) 解码算法柱搜索算法是一种动态规划的栈式搜索算法，源语言句子长度为nf的柱搜索解码算法描述如下： ① 初始化假设栈hypoStack[0..nf]; ② 生成初始翻译假设加入到假设栈hypoStack[0]中； ③ 遍历i从0到nf-1的所有假设栈hypoStack [i]; ④ 对hypoStack[i]进行剪枝； ⑤ 遍历hypoStack[i]中的每一个翻译假设hypo； ⑥ 查找hypo所有可用的翻译备选项进行逐个扩展，每次扩展生成一个新的假设newhypo； ⑦ 计算newhypo的TotalScore，根据newhypo翻译的源语言单词个数加入到相应假设栈中； ⑧ 最后从假设栈hypoStack [nf]中的最佳假设开始回溯得到翻译译文。解码器实现柱搜索算法的剪枝策略在柱搜索解码过程中，在句子比较长的时候可用翻译选项增多，使得假设栈中的翻译假设的数目变的很大。如果不对假设栈中的翻译假设进行剪枝,搜索空间不断增大，扩展会越来越慢，甚至无法搜索。为了降低搜索的复杂度，一方面可以对限制源语言句子短语在翻译过程的位置扭曲范围进行限制，另一方面在柱搜索解码过程中进行剪枝。在对假设栈进行剪枝时，我们使用了没有风险(no risk)的翻译假设重组和有风险的栈大小剪枝和栈阈值剪枝。相关实验语料库准备由于汉维平行语料库的缺乏，在对有限的汉维生语料进行预处理后，得到了约46万条（句条，词条）汉维双语平行语料库。实验中用汉维双语平行语料库进行翻译模型的训练,用维吾尔语单语语料库进行语言模型的训练，其中维吾尔语我们使用的是拉丁维文。相关实验语言模型训练结果采用SRILM模型训练工具，训练3-gram的维吾尔语语言模型。训练的结果如下表所示：相关实验翻译模型训练结果翻译模型采用从词语对齐到短语对齐训练短语翻译模型的路线，在GIZA++的双向词语对齐基础上，通过词语对齐提炼优化的词语对齐结果。下表为我们翻译模型的部分训练结