作为seoer 你了解搜索引擎抓取与更新策略吗.ppt

作为seoer 你了解搜索引擎抓取与更新策略吗.ppt

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
作为 seoer你了解搜索引擎抓取和更新策略吗 最近在看一本书,发现当我们不实践直接看原理是枯燥无 味的,而实践过后反过来看原理,会觉得很多道理,很多感悟。 就拿我自己做反面教材,说我是搜索引擎优化工作者,我对搜 索引擎的工作方式和基本的抓取原理,更新策略都不懂。那么 你呢?下面就分享下我的读书笔记,仅当新人扫盲。 在介绍搜索引擎爬虫的之前,首先了解爬虫把网页的分类, 四种: 1,已过期的网页和已下载的网页 2,待下载的网页 3,可知网页 4,不可知网页 下面我会详细介绍搜索引擎是如何更新已下载网页,如何 下载待下载网页,如何处理可知但未抓取的网页,如何抓取不 可知网页。 处理待下载网页 抓取策略:在一堆可知的网页中,搜索引擎会抽出待抓取 网页ur,爬虫抓取网页硎r在其中顺序排列,形成一个队列, 调度程序每次从队列头取出某个ur,发送给网页下载器下载 内容,每个新下载的页面包含的ur会追加到带抓取队列中的 末尾,形成循环,这是最基础的算法。但不是唯一的方法。 这样纯粹是按照顺序抓取,但是搜索引擎一般都选择重要 的页面优先抓取。网页重要性,大部分是按照网页流行度抓取 的,所为网页流行度,谷歌官方有句话是指曝光度,通俗意思 就是反向链接。(所以才有那么多人做外链) 一般有四种方案选择重要页面:宽度优先遍历策略,非完 全 pagerank(非谷歌pr值)策略,σi策略,大站优先策略 1、宽度优先遍历策略:将新下载的网页包含的链接直接追 加到带抓取url队列末尾。看似很机械,其实包含了一些优先 策略:如果入链比较多,就更加容易被宽度优先遍历策略抓取 到,入链个数侧面表现了网页的重要性。(这就是为什么要做 好站内链接) 2、非完全 pagerank:前面的是以数量来定的,这个是加 入了质量。 初始算法:将已下载的的网页加入待下载r队列中形成 网页集合,在这个集合中计算p然后将带抓取的队列按照pr 重新排列,就按照这个顺序抓取。

文档评论(0)

fangsheke66 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档