北京大学汉英双语语料库标记规范.pdfVIP

  • 38
  • 0
  • 约2.72万字
  • 约 20页
  • 2015-08-05 发布于安徽
  • 举报
Journal of Chinese Language and Computing, 13 (2) 195-214 195 ∗ 北京大学汉英双语语料库标记规范 常宝宝 柏晓静 北京大学计算语言学研究所,北京 100871 ,中国 chbb@; bxj@ Submitted on 4 March, 2003, Revised and Accepted on 18 May, 2003 摘 要 近年来,在语言信息处理研发中、双语教学和对比研究以及双语词典编纂研究中,双 语语料库的作用日益凸显出来。为有效支持汉英机器翻译研究以及其他面向汉英双语 的研究工作,北京大学计算语言学研究所近来进行了大规模的汉英双语对齐语料库以 及双语语料库处理工具的建设。目前,该汉英双语语料库规模已达 11 万双语对齐句 对,在语料库中,不仅描述了汉英文本在句子一级的对齐信息,还详细描述了收入语 料库中的汉英文本的结构、领域、语体等等方面的信息。为便于数据交换和共享,所 有语料文本均采用 XML编码描述上述信息。本文详细介绍了北京大学汉英双语语料库 的描述内容和标记规范。 关键词 汉英平行语料库,机器翻译,双语对齐,标记规范,双语词典编纂,双语教学和对比 研究 1. 前言 近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经 得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。世界上已 ∗ 本文工作受到 973 项目(G1998030507-4)、863 项目(2002AA117010-08)和国家语 言文字应用“十五”科研项目(YB105-51)的支持。 196 Baobao Chang, Xiaojing Bai 经出现了为数不少的大型单语语料库,尤其是英语语料库,汉语语料库的建设虽然起 步较晚,但也取得了可观的进展,代表性的工作有北京大学计算语言学研究所以及合 作单位所建立的 2600 余万字的《人民日报》切分标注语料库(俞士汶等, 2002) 。相比 较而言,大规模双语语料库尤其是涉及汉语的双语语料库系统建设目前还不多见,然 而这并不能说明,双语语料库构建没有意义,恰恰相反,双语语料库的应用价值正在 各项研究中逐渐体现出来,下面仅仅列出双语语料库几个典型应用场合。 (1)语言信息处理的需求 首先,双语语料库是语言信息处理研究的重要基础资源。机器翻译或机器辅助翻译是 计算语言学的一个重要研究领域,研究人员在相关领域已经探索了 50 余年,80 年代 中期,日本著名机器翻译专家长尾真提出基于实例的机器翻译,80 年代末 90 年代初, IBM 公司 Brown 等人的研究引起了人们在机器翻译研究中引入统计方法的兴趣,此 后市场上又出现了以翻译存储(TM )技术为核心技术的产品本地化翻译辅助系统和 基于模板的翻译技术,所有这些翻译技术无不以双语或多语语料库为基础资源。在这 些方法中,对齐的双语语料库或作为翻译资源直接使用,或用作翻译统计建模的训练 资源。双语语料库的规模和加工深度直接影响着这些研究或产品的结果。 (2 )语言教学和双语对比研究 双语语料库构建也是语言教学和研究的基础资源。双语语料库在语言教学中使用,通 常需要有配套的软件工具,最主要的即为语料库相关集列(concordance)工具。利用双 语语料库相关工具,教授语言的教师和学习语言的学生均可获得很大的帮助。以外语 学习为例,经验表明,仅仅学习语法和词

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档