基于Web的双平行语料库自动获取系统.docVIP

  • 25
  • 0
  • 约 11页
  • 2016-10-04 发布于贵州
  • 举报

基于Web的双平行语料库自动获取系统.doc

基于Web的双平行语料库自动获取系统

基于Web的双语平行语料库自动获取系统 摘要:例如:进行统一中文网页编码,...我们通过观察统计发现在那些具有URL命名相似性的双语网站中,URL的pathname与base...对于对应的英文词ei在英文句子中存在多个的中文词cj... 关键词:中文,词,中文词 类别:专题技术 来源:牛档搜索(Niudown.COM)   本文系牛档搜索(Niudown.COM)根据用户的指令自动搜索的结果,文中内涉及到的资料均来自互联网,用于学习交流经验,作品其著作权归原作者所有。不代表牛档搜索(Niudown.COM)赞成本文的内容或立场,牛档搜索(Niudown.COM)不对其付相应的法律责任! 基于Web的双语平行语料库自动获取系统 叶莎妮 吕雅娟 刘群 中国科学院计算技术研究所智能信息重点实验室 {yeshani, lvyajuan,liuqun,} 摘要:关键词:orpus Automatic Acquisition System Based on Web Abstract: Implemented a bilingual corpus automatic acquisition system by taking advantage of an abundance of multilingual corpus in the World Wide Web, and analyzing their content and links. First, introduced system framework and main modules; second, described every module and technology innovations in detail. A prospect for the next step was given at last. This system provided an effective way for achieving Chinese-English parallel corpus. Keywords: Bilingual Text; Parallel Corpora; Web Mining; 引言 语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g., Brown et al.1990; Melamed 2000; Och and Ney 2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典(e.g., Gale and Church 1991; Melamed 1997)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g., Davis and Dunning 1995; Jian-Yun Nie, TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。 双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。 研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。 背景介绍 加拿大蒙特利尔大学的研究者聂建云开发的系统PT Miner(Parallel Text Miner,1999):通过搜索引擎查找含有特定锚文本的网站构成双语候选网站,再依赖预先定义的语言的前后缀表,抽取出具有URL命名相似性的候选网页即如果某一URL含有一种语言的前后缀,则将这些前后缀替换为另一种语言的,构建出一个URL,如果这样构建出来的URL存在。则找到了一对候选网页对,最后再根据文本长度,网页的HTML标记结构,网页的语言等特征过滤掉候选网页中不平行的网页对。PT Miner系统在中英平行网页文本挑出几百对的中英平行网页对,经过人工的评价,有将近90%的准确率

文档评论(0)

1亿VIP精品文档

相关文档