- 3
- 0
- 约2.7千字
- 约 17页
- 2018-05-18 发布于江苏
- 举报
一种基于短语统计翻译的汉维机器翻译系统5
一种基于短语统计翻译的汉维机器翻译系统 杨攀 报告内容 引言 系统简介 解码器实现 相关实验 总 结 引言 新疆地区的官方使用的语言文字有汉语、维吾尔语、哈萨克语、柯尔克孜语、蒙古语等,在这些少数民族语言文字中,除了蒙古语外,维吾尔语、哈萨克语、柯尔克孜语都属于一个语族(突厥语族)。 正是这种少数民族语言文字的构成,使少数民族语言文字信息技术的开发与应用成为新疆信息化建设当中不可或缺的一个重要方面,也是国家信息化建设的基础之一。 由于维吾尔语的黏着特性,汉语-维吾尔语之间的语言差异很大,所以研究汉维机器翻译技术具有重要意义。 引言 自1990年IBM公司的P.Brown等人提出基于信源信道思想的统计翻译模型之后,统计机器翻译越来越受到研究者的重视。 基于短语的统计机器翻译模型在近几年的统计机器翻译研究中占据了主导地位。 统计机器翻译的优点是在不考虑语言特点的情况下借助于双语平行语料库直接构建一个机器翻译系统,但因此会忽略特定语言的复杂性。 目的是尝试借助汉维语料库构建一个汉维机器翻译系统,这样可以为进一步研究汉维机器翻译打下基础。 系统简介 汉维翻译系统基本框架: 系统简介 语言模型 语言模型是自然语言的数学模型,它主要描述自然语言的统计和结构方面的内在规律。 N-gram统计语言模型是统计语言模型的一种。它主要根据历史N-1个词,来决定第N个词可能出现的概率。N-gram语言模型的概率表示通常由最大相似度来估计。N-gram的句子概率的数学公式如下所示: 系统简介 翻译模型 基于短语的统计机器翻译的最大特点就是其翻译模型为短语级的。典型的翻译过程是将输入的句子划分成短语,然后将每一个短语翻译成相应的译文短语,在翻译的过程中可以对译文的短语序列重新排序。 短语翻译模型的构建需要对语料库中的进行短语的划分,同时对划分的短语进行概率计算。通过短语划分(抽取)得到双语对齐的短语对,短语对的对齐效果和短语对的评分结果直接影响到短语翻译模型的好坏。 系统简介 附加模型 扭曲模型就是对源短语位置重排的范围进行惩罚的。公式如下: 词语惩罚模型计算译文的单词个数作为其惩罚值加入到模型中来,这样可以结合词语惩罚模型的权重值对译文长短的选择。公式如下: 短语惩罚模型计算在构建译文的过程中所使用的源短语的个数。短语惩公式如下: 解码器实现 解码器简介 解码器的任务是用从训练文本中学习到的语言模型、翻译模型以及其他附加模型的信息来确定源句子最可能的翻译句子。本文采用动态规划思想的柱搜索(beam search)算法实现解码搜索功能。 解码器的实现原理 在对数线性模型方法下,将所有的模型信息加入进来后,解码就是在下式中搜索最大模型评分的t的算子: 解码器实现 柱搜索(beam search) 解码算法 柱搜索算法是一种动态规划的栈式搜索算法,源语言句子长度为nf的柱搜索解码算法描述如下: ① 初始化假设栈hypoStack[0..nf]; ② 生成初始翻译假设加入到假设栈hypoStack[0]中; ③ 遍历i从0到nf-1的所有假设栈hypoStack [i]; ④ 对hypoStack[i]进行剪枝; ⑤ 遍历hypoStack[i]中的每一个翻译假设hypo; ⑥ 查找hypo所有可用的翻译备选项进行逐个扩展,每次扩展生成一个新的假设newhypo; ⑦ 计算newhypo的TotalScore,根据newhypo翻译的源语言单词个数 加入到相应假设栈中; ⑧ 最后从假设栈hypoStack [nf]中的最佳假设开始回溯得到翻译译文。 解码器实现 柱搜索算法的剪枝策略 在柱搜索解码过程中,在句子比较长的时候可用翻译选项增多,使得假设栈中的翻译假设的数目变的很大。如果不对假设栈中的翻译假设进行剪枝,搜索空间不断增大,扩展会越来越慢,甚至无法搜索。为了降低搜索的复杂度,一方面可以对限制源语言句子短语在翻译过程的位置扭曲范围进行限制,另一方面在柱搜索解码过程中进行剪枝。 在对假设栈进行剪枝时,我们使用了没有风险(no risk)的翻译假设重组和有风险的栈大小剪枝和栈阈值剪枝。 相关实验 语料库准备 由于汉维平行语料库的缺乏,在对有限的汉维生语料进行预处理后,得到了约46万条(句条,词条)汉维双语平行语料库。实验中用汉维双语平行语料库进行翻译模型的训练,用维吾尔语单语语料库进行语言模型的训练,其中维吾尔语我们使用的是拉丁维文。 相关实验 语言模型训练结果 采用SRILM模型训练工具,训练3-gram的维吾尔语语言模型。训练的结果如下表所示: 相关实验 翻译模型训练结果 翻译模型采用从词语对齐到短语对齐训练短语翻译模型的路线,在GIZA++的双向词语对齐基础上,通过词语对齐提炼优化的词语对齐结果。下表为我们翻译模型的部分训练结
您可能关注的文档
最近下载
- 2021年上海市嘉定区中考英语二模试卷含解析.pdf VIP
- 2025年广东省普通高中学业水平选择性考试生物(详解版).docx VIP
- 宁德市2025-2026学年(上期)高二期末考试数学试卷(含答案).pdf
- 鄂尔多斯职业学院单招《职业适应性测试》真题(达标题)附答案详解.docx VIP
- 2025年四川中科《浅谈肥胖治疗新进展》继续教育习题答案.docx VIP
- 小学三年级数学测量单元试题.docx VIP
- 三菱变频器使用手册-FR-E540 中文版.pdf VIP
- 小升初语文练习题6年级语文.pdf VIP
- 8.1 0—3岁婴幼儿心理发展评价(课件)《0-3岁婴幼儿心理发展与教育》(华东师范大学出版社).pptx VIP
- 《测量》习题3.doc VIP
原创力文档

文档评论(0)