- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
作为 seoer你了解搜索引擎抓取和更新策略吗
最近在看一本书,发现当我们不实践直接看原理是枯燥无
味的,而实践过后反过来看原理,会觉得很多道理,很多感悟。
就拿我自己做反面教材,说我是搜索引擎优化工作者,我对搜
索引擎的工作方式和基本的抓取原理,更新策略都不懂。那么
你呢?下面就分享下我的读书笔记,仅当新人扫盲。
在介绍搜索引擎爬虫的之前,首先了解爬虫把网页的分类,
四种:
1,已过期的网页和已下载的网页
2,待下载的网页
3,可知网页
4,不可知网页
下面我会详细介绍搜索引擎是如何更新已下载网页,如何
下载待下载网页,如何处理可知但未抓取的网页,如何抓取不
可知网页。
处理待下载网页
抓取策略:在一堆可知的网页中,搜索引擎会抽出待抓取
网页ur,爬虫抓取网页硎r在其中顺序排列,形成一个队列,
调度程序每次从队列头取出某个ur,发送给网页下载器下载
内容,每个新下载的页面包含的ur会追加到带抓取队列中的
末尾,形成循环,这是最基础的算法。但不是唯一的方法。
这样纯粹是按照顺序抓取,但是搜索引擎一般都选择重要
的页面优先抓取。网页重要性,大部分是按照网页流行度抓取
的,所为网页流行度,谷歌官方有句话是指曝光度,通俗意思
就是反向链接。(所以才有那么多人做外链)
一般有四种方案选择重要页面:宽度优先遍历策略,非完
全 pagerank(非谷歌pr值)策略,σi策略,大站优先策略
1、宽度优先遍历策略:将新下载的网页包含的链接直接追
加到带抓取url队列末尾。看似很机械,其实包含了一些优先
策略:如果入链比较多,就更加容易被宽度优先遍历策略抓取
到,入链个数侧面表现了网页的重要性。(这就是为什么要做
好站内链接)
2、非完全 pagerank:前面的是以数量来定的,这个是加
入了质量。
初始算法:将已下载的的网页加入待下载r队列中形成
网页集合,在这个集合中计算p然后将带抓取的队列按照pr
重新排列,就按照这个顺序抓取。
您可能关注的文档
- 低迷武将成高考状元神机三国觉醒武将盘点.ppt
- 体外诊断试剂产品注册程序及材料编写要求.ppt
- 住宅装修工程施工工艺与质量标准2017年.ppt
- 体育教师专业成长记录,体育教师校本研修的资料.ppt
- 何谓平均成本法.ppt
- 体育统计和测量.ppt
- 作业治疗评估和记录.ppt
- 作文审题的方法及步骤用教学内容.ppt
- 作文幸福是什么.ppt
- 作文讲评李子柒.ppt
- 榜样在身边心得体会7篇.doc
- 2024-2034年中国单通道探测器行业市场现状分析及竞争格局与投资发展研究报告.docx
- 2024-2034年中国弹性真石漆行业市场现状分析及竞争格局与投资发展研究报告.docx
- 2024年延边职业技术学院高职单招(英语/数学/语文)笔试历年真题摘选含答案解析.docx
- 2024年庆阳职业技术学院高职单招(英语/数学/语文)笔试历年真题摘选含答案解析.docx
- 炒鞋背景下的消费者行为研究.docx
- 2024-2034年中国亨利衫行业市场现状分析及竞争格局与投资发展研究报告.docx
- 维生素C咀嚼片中VC含量的测定.docx
- 云南省2024年保险代理从业人员资格考试基础知识试题.docx
- 2024-2034年中国室内装饰线板行业市场现状分析及竞争格局与投资发展研究报告.docx
文档评论(0)