URL模式与HTML结构相结合的平行网页获取方法.pdfVIP

下载本文档

3
0
约1.82万字
约 10页
2017-09-14 发布于重庆
举报

URL模式与HTML结构相结合的平行网页获取方法.pdf

URL 模式与HTML 结构相结合的平行网页获取方法刘奇，刘洋，孙茂松（清华大学计算机科学与技术系智能技术与系统国家重点实验室，北京 100084）摘要：平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长，但由于平行网站的异构性和复杂性，如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。本文提出了一种URL 模式与HTML 结构相结合的平行网页获取方法，首先利用HTML 结构实现平行网页的递归访问，其次使用URL 模式优化遍历平行网站的拓扑顺序， 1 从而实现高效准确的平行网页获取。在联合国与香港政府两个平行网站上的实验表明，我们的方法相对传统获取方法在获取时间上减少50%以上，准确率提高 15%，并显著提高了机器翻译的质量（BLEU 值分别提高1.6 和0.7 个百分点）。关键词：平行网页获取；平行语料库；URL 模式；HTML 结构 A Parallel Pages Mining Approach : Combining URL Patterns

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

URL模式与HTML结构相结合的平行网页获取方法.pdfVIP

URL模式与HTML结构相结合的平行网页获取方法.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档