搜索引擎工作原理简介.docVIP

  • 21
  • 0
  • 约5.84千字
  • 约 5页
  • 2016-11-29 发布于重庆
  • 举报
搜索引擎工作原理简介

搜索引擎工作原理简介 搜索引擎的工作过程大体分为三个阶段 爬行和抓取 预处理 排 名 蜘蛛 跟踪链接 搜索引擎用来爬行和访问页面的程序称为蜘蛛spider,也称机器人bot。 蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。 为了提高爬行和抓取速度,搜索引擎会使用多个蜘蛛并发分布爬行。 蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。(如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。) 常见的蜘蛛名称: 1.Baiduspider+(+/search/spider.htm) 百度蜘蛛 2.Mozilla/5.0(compatible;Yahoo!Slurp China;/help.html)雅虎中国蜘蛛 3. Mozilla/5.0(compatible;Yahoo!Slurp/3.0;/help/us/ysearch/slurp) 英文雅虎蜘蛛 4. Mozilla/5.0(compatible;Googlebot/2.1;+/bot.html)Google蜘蛛 5.msnbot/1.1(+/msnbot.htm)微软bing蜘蛛 6.Sogou+web+robot+(+/docs/help/webmasters.htm#07)搜狗蜘蛛 7.Sosospider+(+/webspider.htm)搜搜蜘蛛 8. Mozilla/5.0(compatible;YodaoBot/1.0;/help/webmaster/spider/;)有道蜘蛛 1.为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面。 2.由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。 3.在实际工作中,蜘蛛的带宽资源、时间都不是无限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。 最简单的爬行遍历策略分为两种:深度优先和广度优先。 深度优先:指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。 广度优先:指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。(即一层爬完,再爬第二层,接着第三层,依此类推) 注:深度优先和广度优先通常是混合使用,既可以照顾到尽量多的网站(广度优先),也能照顾到一部分网站的内页(深度优先) 吸引蜘蛛 1.SEO人员要想让自已的更多页面被收录,就要想办法吸引蜘蛛来抓取。 2.既然不能抓取所有页面,蜘蛛所要做的就是尽量抓取重要页面。 哪些页面被认为是比较重要: 网站和页面权重。(质量高、资格老的网站被认为权重比较高,则该页面被爬行的深度比较高,所有会有更多内页被收录) 页面更新度。(如果页面内容经常更新,蜘蛛就会更加频繁地访问这种页面,页面上出现的新链接,也自然会被蜘蛛更快地跟踪,抓取新页面) 导入链接。(无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接经常使页面上的导出链接被爬行度增加) 与首页点击距离。(离首页点击距离越近,页面权重越重,被蜘蛛爬行的机会也越大。) 地址库 文件存储 爬行时的复制内容检测 1.为了避免重复爬行和抓取网址,搜索引擎建立一个地址库。(记录已经被发现还没有抓取的页面,以及已经被抓取的页面) 2.蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库。 3.提交页面基本上是无用处的,搜索引擎更喜欢自己沿着链接发现新页面。 地址库中URL来源: 1.人工录入的种子网站。 2.蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据对比,如果没有,就存入待访问地址库。 3.通过搜索引擎网页提交表格提交进来的网址。 1.搜索引擎蜘蛛抓取的数据存入原始页面数据库。 2.原始页面数据库中的页面数据与用户浏览器得到的HTML是完全一样的。 3.每个URL

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档