- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于短语统计翻译的汉维机器翻译系统.ppt
一种基于短语统计翻译的汉维机器翻译系统 杨攀 报告内容 引言 系统简介 解码器实现 相关实验 总 结 引言 新疆地区的官方使用的语言文字有汉语、维吾尔语、哈萨克语、柯尔克孜语、蒙古语等,在这些少数民族语言文字中,除了蒙古语外,维吾尔语、哈萨克语、柯尔克孜语都属于一个语族(突厥语族)。 正是这种少数民族语言文字的构成,使少数民族语言文字信息技术的开发与应用成为新疆信息化建设当中不可或缺的一个重要方面,也是国家信息化建设的基础之一。 由于维吾尔语的黏着特性,汉语-维吾尔语之间的语言差异很大,所以研究汉维机器翻译技术具有重要意义。 引言 自1990年IBM公司的P.Brown等人提出基于信源信道思想的统计翻译模型之后,统计机器翻译越来越受到研究者的重视。 基于短语的统计机器翻译模型在近几年的统计机器翻译研究中占据了主导地位。 统计机器翻译的优点是在不考虑语言特点的情况下借助于双语平行语料库直接构建一个机器翻译系统,但因此会忽略特定语言的复杂性。 目的是尝试借助汉维语料库构建一个汉维机器翻译系统,这样可以为进一步研究汉维机器翻译打下基础。 系统简介 汉维翻译系统基本框架: 系统简介 语言模型 语言模型是自然语言的数学模型,它主要描述自然语言的统计和结构方面的内在规律。 N-gram统计语言模型是统计语言模型的一种。它主要根据历史N-1个词,来决定第N个词可能出现的概率。N-gram语言模型的概率表示通常由最大相似度来估计。N-gram的句子概率的数学公式如下所示: 系统简介 翻译模型 基于短语的统计机器翻译的最大特点就是其翻译模型为短语级的。典型的翻译过程是将输入的句子划分成短语,然后将每一个短语翻译成相应的译文短语,在翻译的过程中可以对译文的短语序列重新排序。 短语翻译模型的构建需要对语料库中的进行短语的划分,同时对划分的短语进行概率计算。通过短语划分(抽取)得到双语对齐的短语对,短语对的对齐效果和短语对的评分结果直接影响到短语翻译模型的好坏。 系统简介 附加模型 扭曲模型就是对源短语位置重排的范围进行惩罚的。公式如下: 词语惩罚模型计算译文的单词个数作为其惩罚值加入到模型中来,这样可以结合词语惩罚模型的权重值对译文长短的选择。公式如下: 短语惩罚模型计算在构建译文的过程中所使用的源短语的个数。短语惩公式如下: 解码器实现 解码器简介 解码器的任务是用从训练文本中学习到的语言模型、翻译模型以及其他附加模型的信息来确定源句子最可能的翻译句子。本文采用动态规划思想的柱搜索(beam search)算法实现解码搜索功能。 解码器的实现原理 在对数线性模型方法下,将所有的模型信息加入进来后,解码就是在下式中搜索最大模型评分的t的算子: 解码器实现 柱搜索(beam search) 解码算法 柱搜索算法是一种动态规划的栈式搜索算法,源语言句子长度为nf的柱搜索解码算法描述如下: ① 初始化假设栈hypoStack[0..nf]; ② 生成初始翻译假设加入到假设栈hypoStack[0]中; ③ 遍历i从0到nf-1的所有假设栈hypoStack [i]; ④ 对hypoStack[i]进行剪枝; ⑤ 遍历hypoStack[i]中的每一个翻译假设hypo; ⑥ 查找hypo所有可用的翻译备选项进行逐个扩展,每次扩展生成一个新的假设newhypo; ⑦ 计算newhypo的TotalScore,根据newhypo翻译的源语言单词个数 加入到相应假设栈中; ⑧ 最后从假设栈hypoStack [nf]中的最佳假设开始回溯得到翻译译文。 解码器实现 柱搜索算法的剪枝策略 在柱搜索解码过程中,在句子比较长的时候可用翻译选项增多,使得假设栈中的翻译假设的数目变的很大。如果不对假设栈中的翻译假设进行剪枝,搜索空间不断增大,扩展会越来越慢,甚至无法搜索。为了降低搜索的复杂度,一方面可以对限制源语言句子短语在翻译过程的位置扭曲范围进行限制,另一方面在柱搜索解码过程中进行剪枝。 在对假设栈进行剪枝时,我们使用了没有风险(no risk)的翻译假设重组和有风险的栈大小剪枝和栈阈值剪枝。 相关实验 语料库准备 由于汉维平行语料库的缺乏,在对有限的汉维生语料进行预处理后,得到了约46万条(句条,词条)汉维双语平行语料库。实验中用汉维双语平行语料库进行翻译模型的训练,用维吾尔语单语语料库进行语言模型的训练,其中维吾尔语我们使用的是拉丁维文。 相关实验 语言模型训练结果 采用SRILM模型训练工具,训练3-gram的维吾尔语语言模型。训练的结果如下表所示: 相关实验 翻译模型训练结果 翻译模型采用从词语对齐到短语对齐训练短语翻译模型的路线,在GIZA++的双向词语对齐基础上,通过词语对齐提炼优化的词语对齐结果。下表为我们翻译模型的部分训练结
您可能关注的文档
- 《化工过程数学与计算机模拟》乙烷—乙烯—乙醇.ppt
- 《千与千寻》 .ppt
- 《历史与社会》八年级下.ppt
- 《历史与社会》考前辅导——中考复习一、二、三、四.ppt
- 《参加103年全国大专校院运动会各项荣誉榜 》.ppt
- 《可再生能源》 ——未来的能源.ppt
- 《合理把握学生数学学习起点的研究》 .ppt
- 《同分母分数加减法》.ppt
- 《向你推荐一本书》口语交际).ppt
- 《呐喊》自序 作者:鲁迅.ppt
- 2025年江西应用技术职业学院单招职业技能测试题库完整.docx
- 2025年重庆社区工作者应知应会考试题库附答案(考试直接用).docx
- 2025年江苏省常州市单招(语文)测试模拟题库带答案.docx
- 2025年江西枫林涉外经贸职业学院单招职业倾向性测试题库a4版.docx
- 2025年江西工业职业技术学院单招(语文)测试模拟题库附答案.docx
- 2025年江西婺源茶业职业学院单招(语文)测试模拟题库完整版.docx
- 2025年宁夏建设职业技术学院单招语文测试模拟题库附答案.docx
- 2025年宁夏中 卫 市行政职业能力测验模拟试题及参考答案1套.docx
- 2025年江西工程学院单招语文测试模拟题库含答案.docx
- 2025年环境影响评价工程师之环评技术方法题库500道附答案(夺分金卷).docx
最近下载
- 刑事审判参考2001年第7辑(总第18辑).pdf VIP
- 刑事审判参考2001年第4辑(总第15辑).pdf VIP
- GB/T 18998.5-2022工业用氯化聚氯乙烯(PVC-C)管道系统 第5部分:系统适用性.pdf
- 刑事审判参考2001年第8辑.总第19辑.pdf VIP
- 急诊危重症护理新进展题库答案-2025年华医网继续教育答案.docx VIP
- 《共圆中国梦》教学设计 统编版道德与法治九年级上册.pdf
- 新解读《DL_T 2765—2024输变电工程逻辑模型规范》最新解读.docx VIP
- 2025年锅炉水处理作业G3证理论考试笔试试题(400题)含答案.docx VIP
- 刑事审判参考2001年第9辑.总第20辑.pdf VIP
- 房地产开发重要节点及流程.pptx VIP
文档评论(0)