第2章 了解搜引擎(1.0).pptVIP

  • 0
  • 0
  • 约3.6千字
  • 约 27页
  • 2019-01-24 发布于江苏
  • 举报
第2章 了解搜引擎(1.0)

* -的例子:电路板厂 –双面电路板 单击此处编辑母版标题样式 了解搜索引擎 第一课 了解搜索引擎工作原理 了解谷歌PR值计算方法 掌握搜索引擎高级指令 本章目标 搜索引擎工作原理 1、爬行和抓取 2、预处理 3、排名 4、相关性计算 搜索引擎工作过程 爬行和抓取 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码,存入数据库 预处理 索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用 排名 用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面 搜索引擎工作原理 爬行和抓取(完成数据收集任务) 蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛( spider),也称为机器人(bot)。 蜘蛛访问网站页面时类似于普通用户使用的浏览器 蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件 跟踪链接 从理论上说,蜘蛛从任何一个页面出发顺着链接都可以爬行到互联网上的所有页面 2种爬行策略:深度优先和广度优先 爬行和抓取(一) 爬行和抓取(续) 吸引蜘蛛 影响网页被抓取的因素: 网站和页面权重 页面更新度 导入链接 与首页点击距离 地址库 记录已经被发现或抓取的页面 地址库中URL来源: 人工录入的种子网站 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果地址库中

文档评论(0)

1亿VIP精品文档

相关文档