第2章了解搜引擎(1.0).pptVIP

下载本文档

0
0
约3.6千字
约 27页
2019-01-24 发布于江苏
举报

第2章了解搜引擎(1.0).ppt

第2章了解搜引擎(1.0)

* -的例子：电路板厂 –双面电路板单击此处编辑母版标题样式了解搜索引擎第一课了解搜索引擎工作原理了解谷歌PR值计算方法掌握搜索引擎高级指令本章目标搜索引擎工作原理 1、爬行和抓取 2、预处理 3、排名 4、相关性计算搜索引擎工作过程爬行和抓取搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码，存入数据库预处理索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用排名用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面搜索引擎工作原理爬行和抓取（完成数据收集任务）蜘蛛搜索引擎用来爬行和访问页面的程序被称为蜘蛛( spider),也称为机器人(bot)。蜘蛛访问网站页面时类似于普通用户使用的浏览器蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件跟踪链接从理论上说，蜘蛛从任何一个页面出发顺着链接都可以爬行到互联网上的所有页面２种爬行策略：深度优先和广度优先爬行和抓取（一）爬行和抓取（续）吸引蜘蛛影响网页被抓取的因素：网站和页面权重页面更新度导入链接与首页点击距离地址库记录已经被发现或抓取的页面地址库中URL来源：人工录入的种子网站蜘蛛抓取页面后，从HTML中解析出新的链接URL，与地址库中的数据进行对比，如果地址库中

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第2章了解搜引擎(1.0).pptVIP