- 2
- 0
- 约8.76千字
- 约 8页
- 2017-03-28 发布于广东
- 举报
限定领域汉英口语双语语块库的构建.pdf
限定领域汉英口语双语语块库的构建
程葳“2,邱立坤2
l中国科学院自动化研究所,北京,100080;2北京城市学院人工智能研究所.北京.100083
E-mail:wchcng@bcu.edu.∞
摘要;基于语料库的统计翻译中语科库的粒度可分为词、句和语块几种,耳前诃对齐和句子对齐的双语
语料库已经颇具规摸,相关的对齐算法也比较成熟.比较之下.语块级对齐算法还有待研究,而对齐算法
所需要的语块级对齐语料庠则颇为缺乏。本文以酒店领域口语为主要对象,构建了汉英双语语块库.文章
介绍了语块库的构建过程、语块库标注规范.井对标注的结果进行了统计分析.以上工作将有助于双语语
块对齐算法的改进。
美键词,限定领域;口语翻译;双语语块库;语料库标注
引言
机器翻译的任务是把源语言句子翻译成目标语言句子,在机器翻译研究中,关于统计平ll
规则两种路线的争论一直在进行之中.近些年统计与规则两种路线呈现出强烈的融合的趋
势,其中统计机器翻译作为以统计为主的融合的代表受到较多的支持与关注。机器翻译的目
标可以是通用型的,也可以是面向特定领域的;可以是面向书面语的,也可以是面向口语的。
我们的工作主要是面向限定领域的汉语口语机器翻译。
统计机器翻译(Brown et a1.,1993)假定源语言句子是由一个目标语言句子通过一个噪
声信道生成的,从而将机器翻译的任务概括为从源语言还原目标语言。(Brown etal.,1993)
提出的IBM模型成为统计翻译方法事实上的标准,这些模型都是以单个词作为翻泽的基本单
元。无论采用何种路线和方法,均需以语料库的建议为前提。以语料库为中心的思想。即把
语料库放在所有技术的核心地位,而不是依附地位,并有针对性地开发不同的技术以便对语
料库进行深度加工。语料库处理最重要的是从语料库中获取足够多的自然语言的约束,这种
约束不能仅仅是表层的东西,更应该挖掘出深层次的结构性的信息。语料库的加工导向取决
丁我们对翻译方法的研究深度。语料库的规模在一定量级内必然是越人越好,但语料库的加
工和处理是一件耗费丈量人力和物力的工作,提高加工的深度必然意味着加工的难度呈几何
级增加.则加工的数据量就必然受到限制。翻译单元料度的大小也会影响到机器翻译系统的
性能。基于统计的方法是以单词为单元,属于细粒度方法,其泛化能力较好.但翻译质量受
到一定影响;而基于实例的方法,其分析单元一般为短语或模板,属于粗粒度方法。因此翻
译质量比较好,但由于语料增加后,翻译单元的数量会呈爆炸性增长,受存储空间的限制,
系统的泛化能力将下降。因此随着统计翻译研究的不断深入以及统计和规则方法的结合,寻
找语料库加工深度和广度的平衡点成为事实上决定翻译方法走向的关键所在。
面向统计翻译的双语语料库加工的粒度包括从词、语块到句子多个级别,建立语料库的
一2=玎一
方法则包括人工、自动及人工自动相结合几种。目前词对齐和句子对齐的汉英以语语料库己
达到十万级.语块级对齐的双语语料库则较少。
针对从双语语料中自动抽取语块对的问题.(Venugopal et a1.,2003)提出了基于IBM模
型的短语翻译对抽取方法;(Vogel at a1.,2003)提出了四种不同的短语翻译对抽取方法,
并且把各种不同方法抽取的结果加在一个统计翻译系统中。(左云存、宗成庆.2005)在基
于嗍词对齐方法的基础上.提出了一种从双语语料中自动抽取短语翻译对的方法。这种方
法根据词语对齐时出现的不同情况作不同的处理.提高了短语翻译对抽取的效果。
本文介绍了采用人机结合的方法半自动构建限定领域(旅馆)汉英顶语语块库的工作。
第一节对语块的概念作出界定,每二节介绍了我们构建双语语块库的基本原则及规范,第三
节则详细介绍了语块库构建的工作流程,第四节给出了对语料库的统计分析,最后是致谢。
1双语语块的定义
1.1相关工作
Abney(1991)最早提出了一个完整的语块描述体系。他把语块定义为句子中一组相邻的
属f同一个s.投射(s.projection)的词语的集合,建立了语块与管辖约束(GB)理论的x-bar
系统的内在联系,从而奠定了这个语块描述体系的比较坚实的理论基础。CONLL.2000提出
的语块共享任务(Chunking SharedTask)旨在开发出一个大规模的英语语块库,为基丁统
计的不同部分分析方法的探索提供统一的训练和测试库。他们采用]Abney的语块描述框
架,井对一些语块进行了分解。CONLL-2000的语块强调对局部的句法相芙词语的描述,侧
重于从底向上地把句子分隔成不同的基本短语;周强(2001)的定义则强调对句子整体功能块
的描述,侧重于自顶向下地描述句子的基本骨架。这种差别使得CONLL的语块一般比较简
单,平均每个块只包含1.2个词语,而周的语块则比较复杂
原创力文档

文档评论(0)