浅析搜索引擎抓取算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析搜索引擎抓取算法

浅析搜索引擎抓取算法 搜索引擎技术是一种信息技术,主要包括抓取算法和排名算法。为公平起见,搜索引擎公司一般不会公开其算法的细节,因为如果公开这些算法,某些网站可能会利用它来改善其排名,搜索结果将会被网站的站长们操纵,从而影响搜索结果的中立性。 搜索引擎采用的算法可以被看做是一个黑盒,但是通过多种分析之后,就可以对主要内容和策略进行推测。 搜索引擎的抓取算法 搜索引擎工作的第一步就是获得互联网上的信息。现在的互联网是如此庞大,信息量每天都在飞速增长,检索和分类将是一项非常巨大的工程,必须采用自动化的方式来实现。网络内容抓取器就是这样的工具,它访问网页上的超链接,像一传十,十传百…一样,从少数几个网页开始,逐步延伸到互联网的其他网页。 网络蜘蛛 网络内容抓取器常被形象地称为蜘蛛,而互联网就是一个蜘蛛网,蜘蛛就在这张网上不断获取信息。 蜘蛛从网站中的某个页面(通常是首页)开始,读取网页的内容,并找到该网页中的链接地址,然后通过它们寻找下一个网页,这样一直循环下去,直到把所有的网页都访问并抓取下来。 每个主流的搜索引擎都有自己的蜘蛛,例如:Googlebot(Google蜘蛛)、baiduspider(百度蜘蛛)、Yahoo Slurp(Yahoo蜘蛛)、Msnbot(MSN蜘蛛)、Scooter(Altavista蜘蛛)、Lycos_Spider_(T-Rex)、FAST-WebCrawler(Alltheweb蜘蛛)、ia_archiver(alexa蜘蛛)、Slurp(INKTOMI蜘蛛)等。 抓取规则 1.广度优先和深度优先 在抓取的过程中可以采用两种方式:广度优先和深度优先。 (1)广度优先是指先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,以图A所示的网页链接结构为例,蜘蛛的抓取顺序如下: ◆从A页面出发,首先抓取BCDEF页面。 ◆从E页面出发,抓取H页面。 ◆从F页面出发,抓取G页面。 ◆从H页面出发,抓取I页面。 ◆没有发现更多可抓取的页面,抓取过程结束。 图A 广度优先是目前常用蜘蛛抓取方式,因为此方法可以并行处理,提高抓取速度。 (2)深度优先是指蜘蛛从起始页开始,逐个链接跟踪下去,处理完这条线路之后再转入下一个页面,继续跟踪链接。以图A所示的页面链接结构为例,蜘蛛的抓取顺序如下: ◆从A页面出发,抓取F页面。 ◆从F页面出发,抓取G页面,发现没有更多可链接的页面,于是回到F页面,发现F页面也没有更多的页面链接,于是回到A页面。 ◆从A页面出发,抓取E页面,从E页面出发抓取H页面,从H页面出发抓取I页面。 ◆回到A页面,抓取D页面。 ◆从A页面出发,抓取C页面。 ◆从A页面出发,抓取B页面。 ◆没有发现更多可抓取的页面,抓取过程结束。 深度优先的算法一般采用堆栈结构实现,其优点在于设计蜘蛛时比较容易。 2.搜索引擎容量 对于搜索引擎来说,要抓取互联网上所有的网页几乎是不能的。从目前公布的数据来看,容量最大的搜索引擎也只能抓取整个互联网中40%左右的网页,主要原因如下: ◆现有的抓取技术无法遍历所有的网页,有许多网页无法从其他网页的链接中找到。 ◆信息的存储技术存在瓶颈,如果按照每个页面的平均大小为20KB计算,100亿网页的容量是100×2000G字节。如此庞大的信息量,以目前的存储技术很难实现。 ◆数据量太大时,搜索过程会受到搜索效率的影响。 因此,搜索引擎的网络蜘蛛往往只抓取那些重要的网页,而评价其重要性的主要依据是该网页的链接深度。由于不可能抓取所有的网页,因此网络蜘蛛一般都设置了访问的层数。 3.蜘蛛访问限制规则 现在的网站都希望搜索引擎能更全面地抓取自己网站的网页,因为这意味着更多的访问者能通过搜索引擎找到此网站。为了让网页全面被抓取到,网站管理员可以建立一个站点地图文件(Site Map,把网站内部所有网页的链接放在这个文件里面)。许多蜘蛛会把sitemap.htm文件作为网页抓取的入口,很方便地把整个网站抓取下来,不仅可以避免遗漏某些网页,也会减少网站服务器的负荷。 有时,站长可能希望蜘蛛只抓取某些特定的部分,而另一些内容则不希望被搜索引擎收录,这样做有以下几个方面的原因: ◆网站可能包含一些隐私敏感信息,这些信息不宜暴露在搜索引擎上。 ◆网站可能包含一些需要权限才能查看的信息。 ◆蜘蛛的抓取会增加服务器的负担。 此时可以通过以下两种方式来限制蜘蛛对页面的抓取。 (1)在链接上加入rel=nofollow标签,则搜索引擎蜘蛛会跳过此页面。这种方式简单,但不适合用于有大量页面需要限制抓取的情况。 (2)蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt。这个文件一般放在网站服务器的根目录下,网站管理员可以通过Robots.txt来定义哪

文档评论(0)

feixiang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档