浅析搜索引擎抓取算法.docVIP

下载本文档

5
0
约3.67千字
约 5页
2018-10-25 发布于贵州
举报
版权申诉

浅析搜索引擎抓取算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅析搜索引擎抓取算法

浅析搜索引擎抓取算法搜索引擎技术是一种信息技术，主要包括抓取算法和排名算法。为公平起见，搜索引擎公司一般不会公开其算法的细节，因为如果公开这些算法，某些网站可能会利用它来改善其排名，搜索结果将会被网站的站长们操纵，从而影响搜索结果的中立性。搜索引擎采用的算法可以被看做是一个黑盒，但是通过多种分析之后，就可以对主要内容和策略进行推测。搜索引擎的抓取算法搜索引擎工作的第一步就是获得互联网上的信息。现在的互联网是如此庞大，信息量每天都在飞速增长，检索和分类将是一项非常巨大的工程，必须采用自动化的方式来实现。网络内容抓取器就是这样的工具，它访问网页上的超链接，像一传十，十传百…一样，从少数几个网页开始，逐步延伸到互联网的其他网页。网络蜘蛛网络内容抓取器常被形象地称为蜘蛛，而互联网就是一个蜘蛛网，蜘蛛就在这张网上不断获取信息。蜘蛛从网站中的某个页面(通常是首页)开始，读取网页的内容，并找到该网页中的链接地址，然后通过它们寻找下一个网页，这样一直循环下去，直到把所有的网页都访问并抓取下来。每个主流的搜索引擎都有自己的蜘蛛，例如：Googlebot(Google蜘蛛)、baiduspider(百度蜘蛛)、Yahoo Slurp(Yahoo蜘蛛)、Msnbot(MSN蜘蛛)、Scooter(Altavista蜘蛛)、Lycos_Spider_(T-Rex)、FAST-WebCrawler(Alltheweb蜘蛛)、ia_archiver(alexa蜘蛛)、Slurp(INKTOMI蜘蛛)等。抓取规则 1.广度优先和深度优先在抓取的过程中可以采用两种方式：广度优先和深度优先。 (1)广度优先是指先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页，以图A所示的网页链接结构为例，蜘蛛的抓取顺序如下： ◆从A页面出发，首先抓取BCDEF页面。 ◆从E页面出发，抓取H页面。 ◆从F页面出发，抓取G页面。 ◆从H页面出发，抓取I页面。 ◆没有发现更多可抓取的页面，抓取过程结束。图A 广度优先是目前常用蜘蛛抓取方式，因为此方法可以并行处理，提高抓取速度。 (2)深度优先是指蜘蛛从起始页开始，逐个链接跟踪下去，处理完这条线路之后再转入下一个页面，继续跟踪链接。以图A所示的页面链接结构为例，蜘蛛的抓取顺序如下： ◆从A页面出发，抓取F页面。 ◆从F页面出发，抓取G页面，发现没有更多可链接的页面，于是回到F页面，发现F页面也没有更多的页面链接，于是回到A页面。 ◆从A页面出发，抓取E页面，从E页面出发抓取H页面，从H页面出发抓取I页面。 ◆回到A页面，抓取D页面。 ◆从A页面出发，抓取C页面。 ◆从A页面出发，抓取B页面。 ◆没有发现更多可抓取的页面，抓取过程结束。深度优先的算法一般采用堆栈结构实现，其优点在于设计蜘蛛时比较容易。 2.搜索引擎容量对于搜索引擎来说，要抓取互联网上所有的网页几乎是不能的。从目前公布的数据来看，容量最大的搜索引擎也只能抓取整个互联网中40%左右的网页，主要原因如下： ◆现有的抓取技术无法遍历所有的网页，有许多网页无法从其他网页的链接中找到。 ◆信息的存储技术存在瓶颈，如果按照每个页面的平均大小为20KB计算，100亿网页的容量是100×2000G字节。如此庞大的信息量，以目前的存储技术很难实现。 ◆数据量太大时，搜索过程会受到搜索效率的影响。因此，搜索引擎的网络蜘蛛往往只抓取那些重要的网页，而评价其重要性的主要依据是该网页的链接深度。由于不可能抓取所有的网页，因此网络蜘蛛一般都设置了访问的层数。 3.蜘蛛访问限制规则现在的网站都希望搜索引擎能更全面地抓取自己网站的网页，因为这意味着更多的访问者能通过搜索引擎找到此网站。为了让网页全面被抓取到，网站管理员可以建立一个站点地图文件(Site Map，把网站内部所有网页的链接放在这个文件里面)。许多蜘蛛会把sitemap.htm文件作为网页抓取的入口，很方便地把整个网站抓取下来，不仅可以避免遗漏某些网页，也会减少网站服务器的负荷。有时，站长可能希望蜘蛛只抓取某些特定的部分，而另一些内容则不希望被搜索引擎收录，这样做有以下几个方面的原因： ◆网站可能包含一些隐私敏感信息，这些信息不宜暴露在搜索引擎上。 ◆网站可能包含一些需要权限才能查看的信息。 ◆蜘蛛的抓取会增加服务器的负担。此时可以通过以下两种方式来限制蜘蛛对页面的抓取。 (1)在链接上加入rel=nofollow标签，则搜索引擎蜘蛛会跳过此页面。这种方式简单，但不适合用于有大量页面需要限制抓取的情况。 (2)蜘蛛进入一个网站，一般会访问一个特殊的文本文件Robots.txt。这个文件一般放在网站服务器的根目录下，网站管理员可以通过Robots.txt来定义哪