- 21
- 0
- 约5.84千字
- 约 5页
- 2016-11-29 发布于重庆
- 举报
搜索引擎工作原理简介
搜索引擎工作原理简介
搜索引擎的工作过程大体分为三个阶段
爬行和抓取
预处理
排 名
蜘蛛
跟踪链接
搜索引擎用来爬行和访问页面的程序称为蜘蛛spider,也称机器人bot。
蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。
为了提高爬行和抓取速度,搜索引擎会使用多个蜘蛛并发分布爬行。
蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。(如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。)
常见的蜘蛛名称:
1.Baiduspider+(+/search/spider.htm) 百度蜘蛛
2.Mozilla/5.0(compatible;Yahoo!Slurp China;/help.html)雅虎中国蜘蛛
3. Mozilla/5.0(compatible;Yahoo!Slurp/3.0;/help/us/ysearch/slurp) 英文雅虎蜘蛛
4. Mozilla/5.0(compatible;Googlebot/2.1;+/bot.html)Google蜘蛛
5.msnbot/1.1(+/msnbot.htm)微软bing蜘蛛
6.Sogou+web+robot+(+/docs/help/webmasters.htm#07)搜狗蜘蛛
7.Sosospider+(+/webspider.htm)搜搜蜘蛛
8. Mozilla/5.0(compatible;YodaoBot/1.0;/help/webmaster/spider/;)有道蜘蛛
1.为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面。
2.由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。
3.在实际工作中,蜘蛛的带宽资源、时间都不是无限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。
最简单的爬行遍历策略分为两种:深度优先和广度优先。
深度优先:指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
广度优先:指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。(即一层爬完,再爬第二层,接着第三层,依此类推)
注:深度优先和广度优先通常是混合使用,既可以照顾到尽量多的网站(广度优先),也能照顾到一部分网站的内页(深度优先)
吸引蜘蛛
1.SEO人员要想让自已的更多页面被收录,就要想办法吸引蜘蛛来抓取。
2.既然不能抓取所有页面,蜘蛛所要做的就是尽量抓取重要页面。
哪些页面被认为是比较重要:
网站和页面权重。(质量高、资格老的网站被认为权重比较高,则该页面被爬行的深度比较高,所有会有更多内页被收录)
页面更新度。(如果页面内容经常更新,蜘蛛就会更加频繁地访问这种页面,页面上出现的新链接,也自然会被蜘蛛更快地跟踪,抓取新页面)
导入链接。(无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接经常使页面上的导出链接被爬行度增加)
与首页点击距离。(离首页点击距离越近,页面权重越重,被蜘蛛爬行的机会也越大。)
地址库
文件存储
爬行时的复制内容检测
1.为了避免重复爬行和抓取网址,搜索引擎建立一个地址库。(记录已经被发现还没有抓取的页面,以及已经被抓取的页面)
2.蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库。
3.提交页面基本上是无用处的,搜索引擎更喜欢自己沿着链接发现新页面。
地址库中URL来源:
1.人工录入的种子网站。
2.蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据对比,如果没有,就存入待访问地址库。
3.通过搜索引擎网页提交表格提交进来的网址。
1.搜索引擎蜘蛛抓取的数据存入原始页面数据库。
2.原始页面数据库中的页面数据与用户浏览器得到的HTML是完全一样的。
3.每个URL
您可能关注的文档
- 护士核心考点全攻略第二章第四节先天性心脏病病人的护理.docx
- 护士核心考点全攻略第五章第八节猩红热病人的护理.docx
- 护士核心考点全攻略第四章第九节呼吸衰竭病人的护理.docx
- 护士核心考点全攻略第四章第八节慢性肺源性心脏病病人的护理.docx
- 护士核心考点全攻略第四章第六节慢性阻塞性肺疾病病人的护理.docx
- 护导复习题.doc
- 护师贴敷法2月.doc
- 护士核心考点全攻略第十二章肌肉骨骼系统和结缔组织疾病病人的护理第一节.docx
- ARK相关技术.pptx
- 护理5班儿科授课计划.doc
- 山西天一大联考2025-2026学年高二上学期期末学情监测语文试题(试卷+解析).docx
- 山西忻州部分学校2025-2026学年高一上学期2月质量检测数学试题(人教B版)(试卷+解析).docx
- 山西运城市2025-2026学年高二第一学期期末调研测试数学试题(试卷+解析).docx
- 陕西省榆林市榆阳区2025-2026学年八年级上学期期末地理试题(试卷+解析).docx
- 陕西西安市碑林区2025-2026学年度第一学期期末八年级生物试题(试卷+解析).docx
- 四川省广元市苍溪县2025-2026年八年级上学期期末道德与法治试题(试卷+解析).docx
- 江苏泰州市姜堰区2025-2026学年七年级上学期1月期末数学试题(试卷+解析).docx
- 江苏省扬州市邗江区2025-2026学年九年级上学期期末考试化学试题(试卷+解析).docx
- 江西上饶市铅山县2025-2026学年第一学期期末考试八年级数学试题(试卷+解析).docx
- 江苏扬州市高邮市2025-2026学年度第一学期期末学业质量监测试题九年级英语(试卷+解析).docx
原创力文档

文档评论(0)