3google工作原理.pptVIP

下载本文档

2
0
约5.86千字
约 31页
2018-06-11 发布于安徽
举报
版权申诉

3google工作原理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

robots.txt文件与SEO robots.txt在SEO中作用：通过robts.txt禁止搜索引擎蜘蛛访问网站内部不想被访问的文件或页面。也就是说使用robts.txt可以限制一个范围不让搜素引擎蜘蛛爬行或访问。从而达到集中网站权重的目的。有效避免页面权重分散。思考：问题：网站内部哪些页面是可以被robts.txt文件禁止的？ 1.服务 2.注册 3.购物 4.条款 5.广告 …… 总结：将所有非SEO页面，禁止搜索引擎收录。SEO与搜索引擎的将建立初步友好关系。直接有效地减轻了搜索引擎蜘蛛爬行网站时的工作压力。让蜘蛛的爬行过程更加有目的性，有针对性。扩展补充： SEO基本原则：1.与搜索引擎最大程度友好化。2.与用户最大程度友好化。排名过滤及调整选出匹配文件子集、计算相关性后，大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法，对排名进行轻微调整，其中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面，虽然按照正常的权重和相关性计算排到前面，但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。提示要点：搜索引擎会反复地对一个网站进行回访并找出网站存在的缺点或验证网站是否违反当前排名算法的原理。从而对网站整体的排名进行微调，或大幅度调整。所以SEO人员要记住，打江山容易，守江山难。排名显示所有排名确定后，排名程序调用原始页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要，而不是调用页面本身的描述标签。备注：当站长没有设置描述标签或在描述标签中没有符合与被搜索条件相关的关键词。那么搜索引擎将自动在对应的页面中抓取与被搜索条件最相关的信息。作为显示在排名中的一个描述。搜索缓存用户搜索的关键词有很大一部分是重复的。按照2/8定律，20%的搜索词占到了总搜索次数的80%。按照长尾理论，最常见的搜索词没有占到80%那么多，但通常也有一个比较粗大的头部，很少一部分搜索词占到了所有搜索次数的很大一部分。尤其是有热门新闻发生时，每天可能有几百万人搜索完全相同的关键词。思考：如果每次搜索都重新处理排名是否说明是很大的浪费？答：因此，搜索引擎会把最常见的搜索词存入缓存，用户搜索时直接从缓存中调用，而不必经过文件匹配和相关性计算，大大提高了排名效率，缩短了搜索反应时间。知识点回顾 1)Google是通过什么爬行网站页面的？ 2）搜索引擎访问程序爬行网站的最终目的是什么？ 3）当蜘蛛爬行一个网站的时候，最先访问这个网站的什么文件？ 4）我们的网站有哪些页面可以被robts.txt文件禁止？ 5）蜘蛛通过什么，进入网站开始爬行？怎么才能吸引蜘蛛？ 6）SEO怎么做才能使蜘蛛频繁爬行网站页面呢？ 7）网站信息改变了，想要让搜索引擎修改排名显示方式我们该怎么做？ 8）搜索引擎总是不收录你的页面很有可能是什么原因？ 9）搜索引擎只能抓取什么内容？ 10）知道了搜索引擎的原理，你觉得我们在发外链的时候需要做哪些调整？ Google 搜索引擎原理简介 Google 搜索引擎的主要工作过程大体上分为三个阶段：（1）爬行和抓取: （2）预处理: （3）排名: 第一阶段（爬行和抓取）知识要点： a.Google Bot b.跟踪链接 c.吸引蜘蛛 e.地址库 f.文件储存 g.复制内容检测 Google Bot——传说中的“蜘蛛侠” “蜘蛛”被称为（spider),也称为机器人（bot）。是搜索引擎用来爬行和抓取网页的一种程序。蜘蛛访问网站时，根据搜索引擎的爬行规则，对网站发出访问请求，网站的服务器就会返回HTML代码给蜘蛛，蜘蛛程序把收到的代码存入原始页面数据库。注意：搜索引擎爬行网站时不止只有一个蜘蛛，为了提高爬行和抓取的速度，通常会有N个蜘蛛同时展开行动。引发思考：问题1.蜘蛛主要通过什么进入到网站爬行？答：蜘蛛通过“导入链接”进入网站，导入链接越多蜘蛛进入网站的机会就越多。（联想：入口越多，你进房子的选择方式就越多。）问题2.蜘蛛为什么要爬行网站？答：因为蜘蛛要收集信息，搜索引擎信息不全，就无法提供搜索服务。问题3.是不是所有信息都会被蜘蛛吞进“肚子”里呢？答：不是，蜘蛛只会把最新、最原创、最有价值的信息吞进肚子里。（蜘蛛会厌食哦！）总结：蜘蛛爬行网页并抓取网页数据，最终目的是为了将最新的网页数据“收录”到数据库中备份。（数据库会反复更新）。蜘蛛与robots.txt文件 robots.txt是搜索引擎蜘蛛访问网