网站大量收购独家精品文档,联系QQ:2885784924

天网增量搜集子系统设计与实现.doc

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
天网增量搜集子系统设计与实现

硕士研究生学位论文 题目 姓 名: 学 号: 院 系专 业: 研究方向:计算机网络与分布式系统 导 师: 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘 要 互联网中的网页呈几何级数的增长。对搜索引擎而言,及时搜集互联网中新出现和变化的网页是核心工作之一。 本文首先总结了当前有关搜集系统主要问题的解决方法。其后主要介绍天网增量搜集子系统中结点协作、URL调度、网页指纹、网页变化预测、URL缓冲等算法设计实现以及相关算法的性能测试。 在系统设计实现章节中较为详细说明了系统的体系结构和各主要模块的设计实现。通过良好设计,我们保证了系统具有良好的扩展性,并对内存和其它硬件资源利用等做了较好的优化。 为检测算法的有效性,我们跟踪了近50万的网页在一个月内的变化,并以此为测试集。在此测试集上对比了我们系统中实现的算法与其它算法,结论表明系统实现的动态选择算法在预测效果上要优于其它三个独立的算法。 论文最后总结了增量搜集子系统的运行情况:天网增量搜集子系统从2005年10月开始在单结点运行,平均每天提供约100万左右的新出现网页,有效地保证了天网搜索引擎的时新性。 关键字:天网,搜索引擎,增量搜集, 网页变化预测 The Design and Implementation of Tiwang incremental crawler Abstract The number of web pages, which follows power-law distribution, in Internet always increases sharply, and it is crucial for a modern search engine to collect new web pages as soon as possible. In this article we’ll first introduce the related work about crawling and incremental crawling technology, and then we’ll state the design and realization of several key algorithms, namely node-collaboration algorithm, URL scheduling algorithm, web page fingerpoint generation algorithm, URL caching alrogirhm, web page change forcast algortithm ,etc. Besides, we evaluate the performance of the above algorithms. We’ll also describe the main architecture of Tianwang incremental sub-system and the design and implementation of chief components. In order to verify the efficiency of our web page change forcast algorithm, we’ve traced about 500,000 URLs to record the history of their changing within one month as a test-set. Based on this test-set ,we have made a comprison between our algothm and other three algorithms.We draw a conclusion that the algorithm proposed in this article is more effective than the other three. At last, we’ll summarize the running condition of this sub-system, which has been running on a single computer since Oct. , 2005. We find that the sub-system has greatly enhanced the preforcement of origin

文档评论(0)

bokegood + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档