logo

您所在位置网站首页 > 海量文档  > 专业论文 > 毕业论文

【毕业论文】天网增量搜集子系统的设计与实现.doc 55页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
特别说明: 下载前务必先预览,自己验证一下是不是你要下载的文档。
  • 上传作者 秦圈圈(上传创作收益人)
  • 发布时间:2018-09-10
  • 需要金币100(10金币=人民币1元)
  • 浏览人气
  • 下载次数
  • 收藏次数
  • 文件大小:1.09 MB
下载过该文档的会员
你可能关注的文档:
硕士研究生学位论文 题目 姓 名: 学 号: 院 系专 业: 研究方向:计算机网络与分布式系统 导 师: 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘 要 互联网中的网页呈几何级数的增长。对搜索引擎而言,及时搜集互联网中新出现和变化的网页是核心工作之一。 本文首先总结了当前有关搜集系统主要问题的解决方法。其后主要介绍天网增量搜集子系统中结点协作、URL调度、网页指纹、网页变化预测、URL缓冲等算法设计实现以及相关算法的性能测试。 在系统设计实现章节中较为详细说明了系统的体系结构和各主要模块的设计实现。通过良好设计,我们保证了系统具有良好的扩展性,并对内存和其它硬件资源利用等做了较好的优化。 为检测算法的有效性,我们跟踪了近50万的网页在一个月内的变化,并以此为测试集。在此测试集上对比了我们系统中实现的算法与其它算法,结论表明系统实现的动态选择算法在预测效果上要优于其它三个独立的算法。 论文最后总结了增量搜集子系统的运行情况:天网增量搜集子系统从2005年10月开始在单结点运行,平均每天提供约100万左右的新出现网页,有效地保证了天网搜索引擎的时新性。 关键字:天网,搜索引擎,增量搜集, 网页变化预测 The Design and Implementation of Tiwang incremental crawler Donghai Wang (Computer Software and Theory) Directed by Wei Yan, Hua Han Abstract The number of web pages, which follows power-law distribution, in Internet always increases sharply, and it is crucial for a modern search engine to collect new web pages as soon as possible. In this article we’ll first introduce the related work about crawling and incremental crawling technology, and then we’ll state the design and realization of several key algorithms, namely node-collaboration algorithm, URL scheduling algorithm, web page fingerpoint generation algorithm, URL caching alrogirhm, web page change forcast algortithm ,etc. Besides, we evaluate the performance of the above algorithms. We’ll also describe the main architecture of Tianwang incremental sub-system and the design and implementation of chief components. In order to verify the efficiency of our web page change forcast algorithm, we’ve traced about 500,000 URLs to record the history of their changing within one month as a test-set. Based on this test-set ,we have made a comprison between our algothm and other three algorithms.We draw a conclusion that the algorithm proposed in this article is more effective than the other three. At last, we’ll summarize the running condition of this sub-system, which has been running on a single computer since Oct. , 2005.

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556