第三节:搜索引擎工作原理简介 搜索引擎工作过程 搜索引擎的工作过程大体上可以分为三个阶段: 一:爬行和抓取--搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。 二:预处理--索引程序对抓取来的页面数据进行文字提取,中文分词,索引等处理,以备排名程序调用。 三:排名--用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。 第一步:爬行和抓取 爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。 1、蜘蛛 定义:搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。 爬行方式:多个蜘蛛并发分布爬行。 爬行抓取规则:蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt。 蜘蛛身份:每一个搜索引擎的蜘蛛名称也不同,如下: Baiduspider+ 百度蜘蛛 Sogou+web+robot+ 搜狗蜘蛛 Sosospider+ 搜搜蜘蛛 第一步:爬行和抓取 2、跟踪链接 整个互联网是由相互链接的网站及页面组成的,蜘蛛抓取页面的唯一途径是通过跟踪互联网上的链接进行。 爬行策略--1、深度优先;2、广度优先 爬行和抓取 3、吸引蜘蛛 问:为何要吸引蜘蛛? 答:单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面,但是实际上不能,也不会这么做,在这种前提下,蜘蛛所要做的就是尽量抓取重要页面。 所
您可能关注的文档
- S1-EL-07-M05轿底反绳轮垂直度检查rev1资料.doc
- SC00-001《生产部工作职责及流程》资料.doc
- Scratch游戏制作《小兔子乖乖》资料.pptx
- SDH误码测试资料.doc
- SDI值的讨论资料.ppt
- Sec03_SDOF.单自由度系统资料.pptx
- Sec12_强迫运动资料.pptx
- SectionA1资料.ppt
- semanticpublishing(丛挺)资料.ppt
- SEO步骤及技巧大全(请详读)资料.ppt
- 2026年智慧健康管理系统创新报告.docx
- 河北衡水市武强中学2025-2026学年高二下学期4月期中物理试题(含解析).docx
- 2026年人工智能行业智能老年防走失定位器创新报告.docx
- 2026年低空经济飞行器量子技术应用创新报告.docx
- 2026年农业智能农业智能育种创新报告.docx
- 河北省保定市莲池区保定市第一中学2025-2026学年高二下学期期中考试生物试题(含解析).docx
- 2026年智慧城市电子站牌充电创新报告.docx
- 河北省邯郸市平恩中学等校2025-2026学年八年级期中考试英语试题(含解析).docx
- 2026年供应链创新技术应用报告.docx
- 2026年体育智能赛事管理系统支付系统创新报告.docx
最近下载
- Unit 4 Eat Well 单元测试题 新教材 人教版七年级英语下册.doc VIP
- 政策汇编-全国碳市场交易制度法规政策汇编-2024.pdf VIP
- 太原市2026届高三(二模)语文试卷(含答案及解析).pdf
- 江宁校区新建危废库项目环境影响报告.pdf VIP
- 重症急性胰腺炎.pptx VIP
- 物理学基础与学科发展前沿专题一 绪论.ppt VIP
- 2024年韶关市新丰县医共体招聘专业技术人员笔试真题.docx VIP
- 新版标志牌GB 2894-2025《安全色和安全标志》word版.docx VIP
- 2025年韶关市新丰县医共体招聘专业技术人员笔试真题.docx VIP
- 2025年毕业论文开题报告撰写方法(十五篇).docx VIP
原创力文档

文档评论(0)