第三节:搜索引擎工作原理简介 搜索引擎工作过程 搜索引擎的工作过程大体上可以分为三个阶段: 一:爬行和抓取--搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。 二:预处理--索引程序对抓取来的页面数据进行文字提取,中文分词,索引等处理,以备排名程序调用。 三:排名--用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。 第一步:爬行和抓取 爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。 1、蜘蛛 定义:搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。 爬行方式:多个蜘蛛并发分布爬行。 爬行抓取规则:蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt。 蜘蛛身份:每一个搜索引擎的蜘蛛名称也不同,如下: Baiduspider+ 百度蜘蛛 Sogou+web+robot+ 搜狗蜘蛛 Sosospider+ 搜搜蜘蛛 第一步:爬行和抓取 2、跟踪链接 整个互联网是由相互链接的网站及页面组成的,蜘蛛抓取页面的唯一途径是通过跟踪互联网上的链接进行。 爬行策略--1、深度优先;2、广度优先 爬行和抓取 3、吸引蜘蛛 问:为何要吸引蜘蛛? 答:单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面,但是实际上不能,也不会这么做,在这种前提下,蜘蛛所要做的就是尽量抓取重要页面。 所
您可能关注的文档
最近下载
- T_CCTAS 291-2025 多式联运一单制可信数据空间通用技术要求.docx VIP
- 证券从业之证券市场基本法律法规考试题库【夺分金卷】.docx
- 建筑工程施工质量验收统一标准(最新版).docx VIP
- 2026 七年级下册《词汇拓展记忆技巧》课件.pptx
- 标准图集-18J621-3 通风天窗.pdf VIP
- 2025年中国生态葬智能纪念系统市场调研报告_2025年12月.docx VIP
- 101103专家系统.ppt VIP
- 2026年二级建造师《机电工程管理与实务》案例必背200问.pdf VIP
- 年产650万渗花抛光砖联合车间工艺设计说明书.doc VIP
- T_GDNAS 083-2026 主动脉内球囊反搏导管护理.docx VIP
原创力文档

文档评论(0)