白帽搜刮引擎优化之搜刮引擎任务的基础流程与道理.docVIP

  • 0
  • 0
  • 约1.71万字
  • 约 6页
  • 2017-05-23 发布于河南
  • 举报

白帽搜刮引擎优化之搜刮引擎任务的基础流程与道理.doc

白帽搜刮引擎优化之搜刮引擎任务的基础流程与道理

搜索引擎最重要的是什么?有人会说是查询结果的准确性,有人会说是查询结果的丰富性,但其实这些都不是搜索引擎最最致命的地方。对于搜索引擎来说,最最致命的是查询时间。试想一下,如果你在百度界面上查询一个关键词,结果需要5分钟才能将你的查询结果反馈给你,那结果必然是你很快的舍弃掉百度。   搜索引擎为了满足对速度苛刻的要求(现在商业的搜索引擎的查询时间单位都是微秒数量级的),所以采用缓存支持查询需求的方式,也就是说我们在查询搜索时所得到的结果并不是及时的,而是在其服务器已经缓存好了的结果。那么搜索引擎工作的大体流程是什么样子呢?我们可以理解为三段式。本文仅仅是对着三段工作流程进行大体上的讲解与综述,其中一些详细的技术细节将会用其它的文章进行单独的讲解。   一.网页搜集。   网页搜集,其实就是大家常说的蜘蛛抓取网页。那么对于蜘蛛(google称之为机器人)来说,他们感兴趣的页面分为三类:   1.蜘蛛从未抓去过的新页面。   2.蜘蛛抓去过,但页面内容有改动的页面。   3.蜘蛛抓取过,但现在已删除了的页面。   那么如何行之有效的发现这三类页面并进行抓取,就是spider程序设计的初衷与目的。那么这里就涉及到一个问题,蜘蛛抓取的起始点。   每一位站长只要你的网站没有被严重降权,那么通过网站后台的服务器,你都可以发现勤劳的蜘蛛光顾你的站点,但是你们有没有想过从编写程序的角度上来说,蜘

文档评论(0)

1亿VIP精品文档

相关文档