- 12
- 1
- 约9.78千字
- 约 9页
- 2017-02-08 发布于天津
- 举报
汉英词语对齐规范
汉英词语对齐规范
赵红梅 刘群 张瑞强
中国科学院计算技术研究所 中国科学院智能信息处理重点实验室 北京 100190
E-mail:{zhaohongmei, liuqun, jiangwenbin}@ict.ac.cn
摘 要:本文介绍了我们为NICT-ATR汉英词语对齐项目建立的汉英词语对齐规范的特点,描述了该规范在LDC汉英词语对齐规范框架上提出的一种新的对齐标注方法---实对齐(分为强对齐和弱对齐)和虚对齐,以及与原LDC规范相比一部分对齐规则的变化和扩展情况; 我们评价了标注者内部和标注者间的对齐和标注的一致性,分别取得了比较理想的Kappa值。
关键字:汉英词语对齐规范、手工词语对齐、实对齐、虚对齐、强对齐、弱对齐、对齐和标注一致性
Annotation Guidelines for Chinese-English Word Alignment
Zhao Hongmei,Liu QunInstitute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
E-mail:{zhaohongmei, liuqun, jiangwenbin@ict.ac.cn}
Abstract: We report on our experience with manual alignment of Chinese and English parallel corpus text under the NICT-ATR’s Chinese-English Word Alignment Project. Using existing guidelines for Chinese-English Word Alignment (Linguistic Data Consortium , 2006) as a starting point, we propose a completely different classification for word alignment annotation: substantive link (involving strong link and weak link) and functional link, we described some of the added detailed specifications and rules elaborated with examples to cover systematically occurring cases in our corpus. We evaluated both intra- and inter-annotator agreement and obtained a good result of Kappa above 0.75 and agreement of 95% and 93%, respectively
Keywords: Annotation Guidelines for Chinese-English Word Alignment, manual word alignment, substantive link, functional link, strong link, weak link, alignment and annotation agreement
1 引言
手工词语对齐结果语料可以成为统计机器翻译的黄金标准语料,但是要真正成为黄金标准语料,笔者认为有两点必须得到保证:
1)有效性,即对齐结果真正能更好地为后继的机器翻译流程所用,能为更佳的翻译质量提供最大的帮助;
2)一致性,对齐的一致性决定着对齐结果语料本身的可靠性。
在以往的手工词语对齐过程中,存在着如下两个问题:
①. 对齐标注者间和对齐标注者内部的差异:
由于不同的对齐标注者(以下简称为标注者)对齐标准不一致造成标注者间的差异以及同一标注者在不同时间对齐标准不一致造成的标注者内部的差异,使得对齐结果产生不一致。
②. 对齐标注定义模糊或缺乏标注:
以往的对齐有三种情形:Ⅰ. 区分强对齐和弱对齐,但并没有明确强对齐和弱对齐的定义;Ⅱ. 区分确定对齐和可能对齐,但根据两人之间对齐判断的一致性所作的这种区分比较模糊、不够全面;Ⅲ. 只有对齐,不区分强对齐、弱对齐、确定对齐和可能对齐,对齐结果粗糙。这三种情形都会造成对齐的一致性和可靠性差,影响了机器翻译的最终翻译结果。
为了克服以上问题,增强对齐的有效性和一致性,我们采取了以下措施:
1) 考察了国外三种比较知名的词语对齐规范:LDC汉英词语对齐规范1.1版(以下简称LDC规范)、Blin
原创力文档

文档评论(0)