基于Web的双语平行句对自动获取.docVIP

下载本文档

0
0
约1.29万字
约 9页
2016-01-15 发布于四川
举报
版权申诉

基于Web的双语平行句对自动获取.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web的双语平行句对自动获取.doc

基于Web的双语平行句对自动获( 叶莎妮，吕雅娟，黄赟，刘群（中国科学院计算技术研究所，北京 100080）摘要：双语平行句对是机器翻译的重要资源，但是由于获取途径的限制，句子级平行语料库不仅数量有限并且经常集中在特定领域，很难适应真实应用的需求。本文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点，对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法，改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率，所获取双语平行句对的召回率为93%，准确率为96%，证明了本文方法的有效性。此外，本文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究，取得了初步成果。关键词：双语句对；平行网页；网页挖掘中图分类号：TP391 文献标识码：A Automatic Parallel Sentences Extracting From Web Shani Ye, Yajuan Lv, Yun Huang, Qun Liu (Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China) Abstract: Parallel sentences are valuable resources for machine translation but not readily available in the necessary quantities and always domain specific. This paper constructs a system to automatically obtain parallel sentences of high quality. This system takes advantages of previous systems and puts forward a method to find the similarity of URLs in bilingual websites, and also improves parallel sentence extraction technology. Experimental results show that this system gains a recall rate of 93% and a precision rate of 96% when collecting parallel sentences from test set. In addition, this paper makes preliminary research in collecting parallel sentences from bilingual contrast web pages. Key words: Bilingual Sentences; Parallel Corpora; Web Mining 1 引言近年来，语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库（Bilingual Corpus），已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面，双语语料库的出现直接推动了机器翻译新技术的发展，基于统计（Statistic-Based）和基于实例（Example-Based）等基于语料库的翻译方法为机器翻译研究提供了新的思路，有效改善了翻译质量，在机器翻译研究领域掀起了新的高潮。另一方面，双语语料库又是获取翻译知识的重要来源，从中可以挖掘学习各种细粒度的翻译知识，如翻译词典和翻译模板，从而改进传统的机器翻译技术。此外，双语语料库也是跨语言信息检索，翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。然而，大规模双语语料库建设与获取存在着很大的困难。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设，但是现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。互联网的普及和迅猛发展提供了大量而丰富的电子信息。随着国际化的需要，越来越多的网站成为双语网站，越来越多的网上信息以多语言的方式发布，这就为双语和多语语料库提供了很好的来源。互联网是一个取之不尽、日益增长的信息源，因此是一个潜在的巨大的多语种语料库信息源。这为双语平行语料库的获取提供了潜在的解决途径。研究如何从互联网上自动挖掘这些海量的、真实的双语句对，对于解决双语语料库获取难题，推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个高效的、自动化的