浅谈网络蜘蛛原理及实现.doc

下载文档 降价啦

6
0
约3.17千字
约 6页
2017-06-29 发布于福建
举报
版权申诉
保障服务

浅谈网络蜘蛛原理及实现.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

浅谈网络蜘蛛原理及实现

浅谈网络蜘蛛原理及实现摘要：在当今计算机网络和互联网高度发展时期，各种各样的搜索引擎不断崛起。以雅虎、百度等著名的搜索引擎都提出各种搜索技术，方便广大网民在互联网上搜索自己需要的信息和资料。对于搜索引擎来说网络蜘蛛则是一个重要的组成部分，那么我们很有必要来研究一下网络蜘蛛的原理与实现关键词：网络蜘蛛；搜索引擎；Spider；网页；算法中图分类号：TP393.092 文献标识码：A 文章编号：1007-9599 (2011) 23-0000-01 The Theory and Implementation of Network Spider Wang Kun (Hunan Technology Trade Vocational College,Hengyang 421001,China) Abstract:In today’s computer network and Internet high development period,various search engines continue to rise.From Yahoo,Baidu and other well-known search engines proposed various search technology,convenient and broad netizen Internet search on their information needs and information.To search engine spiders web is an important part,so it is necessary for us to study the principle and realization of network spider. Keywords:Internet Spider;Search engine;Spider,webpage;Algorithm 一、前言在计算机网络诞生之初，各种网站和信息量还是相对比较少，所以信息检索不是一个很难处理的问题。但是在互联网高度发展的今天，一般的互联网用户想通过自己的方法在互联网上查找到满意的信息如同大海捞针一样。因此，搜索引擎便油然而生了，当然网络蜘蛛程序却是搜索引擎中最为重要的环节，如何实现网络蜘蛛，就要了解其工作的原理，深入的探讨网络的实现算法二、网络蜘蛛的原理（一）网站结构。对于当前互联网的各种网站其基本结构都比较类似，基本都遵循一个树形结构，从网站的首页到最后的内容页面都存在一条途径。那么我们可以简单把网站中的每一个网页看作这颗树中一个节点，那么对于如何分析这些网页得出网页之间的联系，这对网络蜘蛛来说是一个重要的问题（二）网络蜘蛛工作原理。网络蜘蛛是通过网页链接地址来寻找网页的，这必须要遵循网站结构来进行抓取，从一个网站某一个页面开始，通常来说这个页面也叫网站的入口。读取网页后，找到网页中的其他的超链接地址，然后再根据这些超链接地址进入下一个网页，因此不断的循环下去后把整个网站抓取完毕。通过这种循环可以构造出更大的环境，那就是整个互联网，也就是说通过网络蜘蛛，就可以将整个互联网上的所有网站都抓取完毕对于以上所描述的网络蜘蛛的原理不难看出，从目前互联网所公布网站的数目来看，是一个非常庞大的数目，而且每个网页信息都有一定的容量，假设一个网页平均的大小为50K计算，这里还要包括图片等媒体，对于上百亿的网页容量可以达到上百万GB的。如何存储？如何有充足的时间去抓取都是一些复杂的问题。面对这些问题，对于网络蜘蛛来说就必须在抓取网页时候要有一个的策略，一般来说有两种策略：广度优先策略和深度优先策略广度优先策略：这种策略就是要求在网络蜘蛛在抓取一个网页后，继续对该网页中的链接网页进行抓取。这种方式可以让网络蜘蛛以并行的方式进行抓取，以提高抓取的速度，减少抓取时间深度优先策略：这就是要求网络蜘蛛在抓取一个网页链接后，进一步对下一个链接的网页进行抓取，不断的跟踪下去，直到网站最大深度为止，然后再处理其他链接的网页。这样的策略最大的优点就是实现算法比较简单，可以采用递归的方法进行设计三、网络蜘蛛与网站网络蜘蛛如何对网站进行抓取，这需要很好的控制，因为网络蜘蛛在抓取网页的时候，不同于一般的访问，否则会对服务器造成严重的负担。那么就要求网站对网络蜘蛛的进入有一定的设置，比如：在网站根目录下投放一个robots.txt文件，专门用来同网络蜘蛛进行交互的文件。它主要的功能就是将网站管理员的意图传递给网络蜘蛛，告诉网络蜘蛛哪些页面可以访问，哪些网页不可以访问。而且这个文件的语法也是比较简单的，也可以将这文件看成