多语种的拼音到汉字的转换和翻译.ppt

多语种的拼音到汉字的转换和翻译.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
存在的问题1 语义翻译:消歧 一个音对应多个字 基于上下文特征处理 使用长词的双语词典进行最大匹配处理(用于汉越语词汇) 存在的问题2 语法翻译 训读汉字串是非法顺序的中文 解决方案 基于重述的修正 简化方案:使用语言模型调序 相当于哈密顿路问题,这是NP完全问题,不存在多项式解法。优化方法是,一边搜索一边保存已经搜过的答案,不重复计算。 存在的问题2 :例子1 红星是他的一个特殊的纸覆盖着太阳晒黑的葡萄, 他用一种特种纸包住葡萄,以防止果皮被晒焦。 Red Star is his grapes covered with a special paper to sun tanning, 存在的问题2 :例子2 据统计,目前一群在宁顺,约80,000已筹得超过150个农场。 据统计,目前在宁顺羊群,有大约80,000名儿童在150户以上。 According to statistics, the current flock in Ninh Thuan, about 80,000 had been raised for more than 150 farms. 存在的问题2 :例子2 据统计,宁顺现饲养有大约8万只绵羊,分散在150个庄园。 存在的问题2 :例子2 在宁顺省的干旱经常遭受饥饿。 the drought in Ninh Thuan province often suffer from hunger. 大旱之年往往缺粮。 重述策略 把‘非人’的话语转化为‘人话’。 机器翻译的终极问题 仔细观察大量的高质量的机器翻译输出文本,发现:其文本其实是可以理解,或者是可以猜测的,但是,可惜的是,描述并不地道。 使用重述处理来增强翻译质量 越南语转换实例 Du khách Tay Ban Nha th??ng th?c trà t?i Tram Anh quán . 游客 西班牙 赏识 茶 在 簪缨 店 。 对照原文 Du khách Tay Ban Nha th??ng th?c trà t?i Tram Anh quán. 西班牙游客在簪缨馆品茶。 逐词的训读汉字串转化如下 进一步通过基于语言模型的改写和语序重排后得到的最终结果是 西班牙游客赏识茶在簪缨店。 Google翻译 西班牙游客享受茶在英国的前哨基地。 Spanish tourists enjoy tea at the British outpost. 考虑到谷歌翻译对于British这个词翻译为越南语“ng??i Anh”,恰和上文的Tram Anh这个词共享主要音节Anh。我们有理由推测,谷歌翻译使用了英文作为中间语言来处理越汉翻译。 评估度量 BLEU等度量综合考虑机器翻译文本的质量 但是我们这里涉及两个阶段的输出文本 因此,我们额外引入一个理解率的度量,说明多大程度上,机器输出文本可以被正确的猜测出来 近似的用标准答案和输出文本的编辑距离表示 训读汉字串具有很高的理解率! 目录 问题概述 拼音输入法 机器翻译:服务于汉字文化圈语言 结语 更多的应用 训读汉字串是用汉字重写我们邻居的语言 外国人学习汉语 中国人学习韩语、越南语 比对语义相同的汉字的发音演变 结语 汉语拼音到汉字的转换? 拼音输入法 韩语/越南语到汉字的转化? 机器翻译 汉字发挥中轴作用 克服语料匮乏的困难; 实现精确翻译 使用统一的串解码模型解决不同的问题 多语种的拼音到汉字的 转换和翻译 赵 海 上海交通大学 zhaohai@cs.sjtu.edu.cn 2013.05.31 长沙 目录 问题概述 拼音输入法 机器翻译:服务于汉字文化圈语言 结语 汉字文化圈 汉字亦称中文字、中国字,是世界上仍被广泛使用的高度发展的表意文字。仍在使用和曾经使用汉字的国家和地区包括汉字的诞生地中国、周边深受其影响的越南、朝鲜半岛和日本,以及近代华人移民聚集的新加坡、马来西亚等东南亚国家。接受汉字及中国文化影响的地理区域在某些文献中被非正式地称为汉字文化圈 汉字文化圈的拼音化 ? 中国 等 日本 朝鲜/韩国 越南 拼音文字(罗马字) 汉语拼音 日文罗马字方案 韩文罗马字方案 越南语国语字 拼音文字(民族文字) ? 假名 谚文 ? 汉字 汉字 日文汉字 韩文汉字 汉字和字喃 汉字文化圈各语言均是世界意义上的大语种 汉语有超过13亿人使用,是使用人口最多的语言 日语有1.3亿的使用者 朝鲜语/韩语有超过7,000万的使用人口 越南语则拥有世界范围内约8,000万的使用者 使用人数 应用驱动的音字转化任务 中文的拼音输入法 从汉语拼音到汉字句子 机器翻译 从假名、谚文或者越南语国语字到汉字串 从语义等价的角度,观察不同语言的读音差异和演化轨迹 目录 问题概述 拼音输

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档