搜索引擎工作原理简介.docVIP

下载本文档

21
0
约5.84千字
约 5页
2016-11-29 发布于重庆
举报

搜索引擎工作原理简介.doc

搜索引擎工作原理简介

搜索引擎工作原理简介搜索引擎的工作过程大体分为三个阶段爬行和抓取预处理排名蜘蛛跟踪链接搜索引擎用来爬行和访问页面的程序称为蜘蛛spider，也称机器人bot。蜘蛛程序发出页面访问请求后，服务器返回HTML代码，蜘蛛程序把收到的代码存入原始页面数据库。为了提高爬行和抓取速度，搜索引擎会使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件。（如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。）常见的蜘蛛名称： 1.Baiduspider+(+/search/spider.htm) 百度蜘蛛 2.Mozilla/5.0(compatible;Yahoo!Slurp China;/help.html)雅虎中国蜘蛛 3. Mozilla/5.0(compatible;Yahoo!Slurp/3.0;/help/us/ysearch/slurp) 英文雅虎蜘蛛 4. Mozilla/5.0(compatible;Googlebot/2.1;+/bot.html)Google蜘蛛 5.msnbot/1.1(+/msnbot.htm)微软bing蜘蛛 6.Sogou+web+robot+(+/docs/help/webmasters.htm#07)搜狗蜘蛛 7.Sosospider+(+/webspider.htm)搜搜蜘蛛 8. Mozilla/5.0(compatible;YodaoBot/1.0;/help/webmaster/spider/;)有道蜘蛛 1.为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面。 2.由于网站及页面链接结构异常复杂，蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。 3.在实际工作中，蜘蛛的带宽资源、时间都不是无限的，也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。最简单的爬行遍历策略分为两种：深度优先和广度优先。深度优先：指的是蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。广度优先：指蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三层页面。（即一层爬完，再爬第二层，接着第三层，依此类推）注：深度优先和广度优先通常是混合使用，既可以照顾到尽量多的网站（广度优先），也能照顾到一部分网站的内页（深度优先）吸引蜘蛛 1.SEO人员要想让自已的更多页面被收录，就要想办法吸引蜘蛛来抓取。 2.既然不能抓取所有页面，蜘蛛所要做的就是尽量抓取重要页面。哪些页面被认为是比较重要：网站和页面权重。（质量高、资格老的网站被认为权重比较高，则该页面被爬行的深度比较高，所有会有更多内页被收录）页面更新度。（如果页面内容经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现的新链接，也自然会被蜘蛛更快地跟踪，抓取新页面）导入链接。（无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取，就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接经常使页面上的导出链接被爬行度增加）与首页点击距离。（离首页点击距离越近，页面权重越重，被蜘蛛爬行的机会也越大。）地址库文件存储爬行时的复制内容检测 1.为了避免重复爬行和抓取网址，搜索引擎建立一个地址库。（记录已经被发现还没有抓取的页面，以及已经被抓取的页面） 2.蜘蛛按重要性从待访问地址库中提取URL，访问并抓取页面，然后把这个URL从待访问地址库中删除，放进已访问地址库。 3.提交页面基本上是无用处的，搜索引擎更喜欢自己沿着链接发现新页面。地址库中URL来源： 1.人工录入的种子网站。 2.蜘蛛抓取页面后，从HTML中解析出新的链接URL，与地址库中的数据对比，如果没有，就存入待访问地址库。 3.通过搜索引擎网页提交表格提交进来的网址。 1.搜索引擎蜘蛛抓取的数据存入原始页面数据库。 2.原始页面数据库中的页面数据与用户浏览器得到的HTML是完全一样的。 3.每个URL

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

搜索引擎工作原理简介.docVIP