搜索引擎工作原理.pptVIP

  • 15
  • 0
  • 约1.67千字
  • 约 15页
  • 2017-08-24 发布于重庆
  • 举报
搜索引擎工作原理.ppt

搜索引擎工作原理 网络1201班:A组成员 搜索引擎 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 认识搜索引擎 — 搜索引擎工作原理 一、爬行和抓取 蜘蛛:搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot) 各主流搜索引擎蜘蛛的 名称: 百度:Baiduspider Google: Googlebot 雅虎: Yahoo!+Slurp 微软MSN: msnbot 搜狗: Sogou+web+spider 网易有道: YoudaoBot 腾讯搜搜: Sosospider 认识搜索引擎 — 搜索引擎工作原理 2. 跟踪链接:为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,最简单的爬行策略分为两种,一种是深度优先,另一种是广度优先。 深度优先和广度优先通常是混合使用的,这样既能照顾到尽量多的网站(广度优先),也能照顾到网站的内页(深度优先)。 认识搜索引擎 — 搜索引擎工作原理 3. 地址库:未来避免重复爬行和抓取,搜索引擎建立记录已经被发现还抓取或未被抓取页面的地址库。 4. 文件存储:搜索引

文档评论(0)

1亿VIP精品文档

相关文档