- 25
- 0
- 约 11页
- 2016-10-04 发布于贵州
- 举报
基于Web的双平行语料库自动获取系统
基于Web的双语平行语料库自动获取系统
摘要:例如:进行统一中文网页编码,...我们通过观察统计发现在那些具有URL命名相似性的双语网站中,URL的pathname与base...对于对应的英文词ei在英文句子中存在多个的中文词cj...
关键词:中文,词,中文词
类别:专题技术
来源:牛档搜索(Niudown.COM)
本文系牛档搜索(Niudown.COM)根据用户的指令自动搜索的结果,文中内涉及到的资料均来自互联网,用于学习交流经验,作品其著作权归原作者所有。不代表牛档搜索(Niudown.COM)赞成本文的内容或立场,牛档搜索(Niudown.COM)不对其付相应的法律责任!
基于Web的双语平行语料库自动获取系统
叶莎妮 吕雅娟 刘群
中国科学院计算技术研究所智能信息重点实验室
{yeshani, lvyajuan,liuqun,}
摘要:关键词:orpus Automatic Acquisition
System Based on Web
Abstract: Implemented a bilingual corpus automatic acquisition system by taking advantage of an abundance of multilingual corpus in the World Wide Web, and analyzing their content and links. First, introduced system framework and main modules; second, described every module and technology innovations in detail. A prospect for the next step was given at last. This system provided an effective way for achieving Chinese-English parallel corpus.
Keywords: Bilingual Text; Parallel Corpora; Web Mining;
引言
语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g., Brown et al.1990; Melamed 2000; Och and Ney 2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典(e.g., Gale and Church 1991; Melamed 1997)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g., Davis and Dunning 1995; Jian-Yun Nie, TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。
双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。
研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。
背景介绍
加拿大蒙特利尔大学的研究者聂建云开发的系统PT Miner(Parallel Text Miner,1999):通过搜索引擎查找含有特定锚文本的网站构成双语候选网站,再依赖预先定义的语言的前后缀表,抽取出具有URL命名相似性的候选网页即如果某一URL含有一种语言的前后缀,则将这些前后缀替换为另一种语言的,构建出一个URL,如果这样构建出来的URL存在。则找到了一对候选网页对,最后再根据文本长度,网页的HTML标记结构,网页的语言等特征过滤掉候选网页中不平行的网页对。PT Miner系统在中英平行网页文本挑出几百对的中英平行网页对,经过人工的评价,有将近90%的准确率
您可能关注的文档
- 基于JAVA人管理系统.doc
- 基于JSP的网书店.doc
- 基于jsp设计人事管理系统.doc
- 基于labviw的温度检测系统(杨凤鸣).doc
- 基于LabVIW的电网调度与运行管理信息系统设计与实现.doc
- 基于Matla的小型电力系统的建模与仿真.doc
- 基于MATLA的电力系统仿真.doc
- 基于Ontolgy 的智能检索技术研究与实践.doc
- 基于PLC的机手模型控制系统的设计5.14.doc
- 基于PLC的消系统的设计.doc
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
原创力文档

文档评论(0)