基于web的大规模双语平行语料库自动获取技术研究与系统实现o8uel17k.doc

基于web的大规模双语平行语料库自动获取技术研究与系统实现o8uel17k.doc

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于web的大规模双语平行语料库自动获取技术研究与系统实现o8uel17k

II 硕士学位论文 基于Web的大规模双语平行语料库 自动获取技术研究与系统实现 申请学位级别 工学硕士 学科专业名称 计算机应用技术 论文提交日期 论文答辩日期 培养单位 中国科学院计算技术研究所 学位授予单位 中国科学院研究生院 答辩委员会主席 声 明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本论文。 (保密论文在解密后适用本授权书。) 城市机动车视频标注平台的研究与实现 摘 要 大规模双语语料库的建设与获取存在着很大的困难,虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。这也间接导致了目前的统计机器翻译系统仍然主要处于实验室开发研究阶段,离实际的应用还有一定的距离。本文致力于构建一个基于Web的大规模双语平行语料库自动获取平台。取得主要成果有以下几方面: 研究了双语平行资源在互联网上的存在形式并探索了相应的获取方法 互联网上虽然存在着海量的多语言文本资源,但任何系统都无法将所有的互联网文本进行处理,从而获取所需的特定双语平行的语料库。因此需要定义一种启发式信息来概括这类多语种平行文本存在的共同特征,以此作为一个有效的入口,来获取我们关心的Web资源。以往的系统都致力从一些双语网站中获取互为翻译的双语网页对。但是通过观察,我们发现在Web上双语平行资源不仅存在于两个平行的单语网页中,还存在于双语对照的同一网页中。本文对这两种资源都定义了有效的启发式信息,从而很好地解决了大规模数据的来源问题。 提出了基于URL命名相似性的双语候选网页获取算法 网络作者在进行双语平行网页URL命名时往往具有一定的规律性,两个URL之间一般只有与语种相关的部分字符串不相同。以往的系统在这个环节需要预先定义在URL命名中常见的与特定语种相关的前后缀表。本文提出了一种可以自动发现一个具有命名规律性的双语网站中双语平行网页之间命名规律的方法,不再依赖预定义。实验表明,本文的方法不仅可以发现所有常见的URL命名规律,而且还可以找出不同的网页编辑者带个人特色的URL命名规律,从而可以找出尽可能多的可信的中英候选网页对。综合各方面的评估与评价,该方法可以充分挖掘出具有命名相似性的双语网站中存在的双语平行网页,初步解决了双语语料库的获取难题,达到了本文预期的目的。 改进了双语平行句对抽取技术 双语平行的网页文本不同于一般的双语对照文本,其中不仅存在有用的双语对照信息,还存在一定的无关信息;此外,网页文本中的词汇量也大大超出任何一本双语词典的范围。这些都造成了对双语平行网页进行句子对齐的难度。以往的系统在这方面研究都是利用双语平行网页在其HTML结构上的相似性,但是很少双语平行网页在HTML结构上是完全一致的,其中的噪声很大。因此,得到的双语平行句对的质量也不尽理想。本文提出了一种双语平行句对的抽取技术,不仅可以利用双语平行网页HTML结构相似性这一优点,而且可以牢牢把握住双语平行句对互为翻译这一本质特征,从而取得到了很好的效果。 最后,我们实现了上述三个方面的技术,搭建了一个可以持续获取大规模的双语平行语料库的平台。 关键词: 双语平行语料库,网页挖掘,双语平行句对,统计机器翻译 The Research and System Implementation of Automatic Acquisition of Large-scale Bilingual Parallel Corpus from Web Ye Shani Directed By LIU Qun There are great difficulties in accessing and building large-scale bilingual parallel corpus. Although a lot of manpower, material and financial resources have been s

您可能关注的文档

文档评论(0)

beoes + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档