- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
平行文本的自动对齐常宝宝计算语言学研究所chbb@pku..cn
平行文本的自动对齐
常宝宝
计算语言学研究所
chbb@pku.
.cn
概要??
概要
?
?
?
平行文本自动对齐概述
双语句子级对齐简介
双语词语级对齐简介
什么是平行文本??按所涉语种数量,语料库可区分为:单语语料库(monolingual corpora)
什么是平行文本?
?
按所涉语种数量,语料库可区分为:
单语语料库(monolingual corpora)
由一种语言的文本组成,例如,汉语文本
多语语料库(multilingual corpora)
由多种语言的文本组成,如,汉-英-日三语文本
?
多语语料库主要类型
平行语料库(parallel corpora)
对比语料库(comparable corpora )
?
多语语料库是多语信息处理的基础资源
什么是平行文本??平行语料库由平行文本组成,平行文本是具有翻译关系的单语文本组合汉英平行文本:互为译文的汉语、英语文本
什么是平行文本?
?
平行语料库由平行文本组成,平行文本是具有翻译关系的单语文本组合
汉英平行文本:互为译文的汉语、英语文本
汉-英-日平行文本:互为译文的汉语、英语、日语文本平行语料库又称作翻译语料库(translation corpora)
双语平行语料库是最常见的平行语料库
?
?
?
对比语料库
– 组成对比语料库的多语文本不具有翻译关系,但在话题、语体等方面具备可比性特点
什么是平行文本?
什么是平行文本?
双语对齐处理?在两种语言文本的不同语言单位之间建立对应关系,确定源语言文本中哪个(些)语言单位和目标语言文本中哪个(些
双语对齐处理
?
在两种语言文本的不同语言单位之间建立对应关系,确定源语言文本中哪个(些)语言单位和目标语言文本中哪个(些)
语言单位互有翻译关系
?
自动双语对齐处理:通过一定的算法,由计算机在双语文
本间建立对齐关系
?
对齐可在各种语言单位间进行,例如:文本级、段落级、
句子级、短语级、词汇级
?
?
句子级对齐、词汇级是最基本的对齐
词汇级对齐建立在句子对齐的基础上
概要??
概要
?
?
?
平行文本自动对齐概述
双语句子级对齐简介
双语词语级对齐简介
双语句子级对齐??在双语文本间建立句子一级的对齐关系哪个
双语句子级对齐
?
?
在双语文本间建立句子一级的对齐关系
哪个(些)句子翻译为哪个(些)句子?
双语句子级对齐?形式定义:令????为原文文本、
双语句子级对齐
?
形式定义:令????为原文文本、????为译文文本,且
???? = ????1????2 ? ???????? , ???? = ????1????2 ? ????????
寻求句对序列???? = ????1????2 … ????????,其中:
???????? = (???????? ? ???????? , ???????? … ????????)
原文片段???????? ? ???????? 与译文片段???????? … ????????互为译文且不存在进一步的句子级对齐
?
句对的组成
多数情况下是一对一
也存在一对多、多对一、多对多、一对零、零对一、零对多 、多对零
双语句子级对齐?关键问题––––
双语句子级对齐
?
关键问题
–
–
–
–
机器不能在理解的基础上进行对齐
并非严格的一一对应
译文可能涉及语序的调整 可能出现省略不译的现象,
译文中也可能增加原文中没有的内容
?
这些问题严重吗?不太严重。
从句子层级看,语序不会剧烈调整
大部分情况是一一对应
双语句子级对齐?句子对齐的基本方法基于长度的对齐方法
双语句子级对齐
?
句子对齐的基本方法
基于长度的对齐方法
例:Brown等人的工作(1991)
例:Gale等人的工作(1993)
基于单词的对齐方法
例:Kay等人的工作(1993)
对一般平行文本,对齐准确率都在90%以上
基于长度的对齐方法效率优于基于单词的对齐方法基于单词的对齐方法
利用单词的对应关系,来决定句子的对齐关系
迭代算法
?
?
?
基于长度的句子对齐方法?基于长度对齐方法的基本依据互为翻译的句子句长度高度相关长句译作长句
基于长度的句子对齐方法
?
基于长度对齐方法的基本依据
互为翻译的句子
句长度高度相关
长句译作长句
短句译作短句
翻译时,句子顺序不做剧烈改变
可不考虑交叉对应
把交叉对应视作多句对应多句处理
基于长度的句子对齐方法?对齐序列????可表达为对齐模式序列???? = ?????????????????1
基于长度的句子对齐方法
?
对齐序列????可表达为对齐模式序列
???? = ?????????????????1 , ?????????????????2 , ????????
文档评论(0)