- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎技术之概要预览
By July
前言
近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索 引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取, 分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下來的冲动, 以作备忘。
本文从最基本的搜索引擎的概念谈起,到全文检索的概念,再到网络蜘蛛,分词技术,系统 架构,排序的讲解,而后到图片搜索的原理,结合google搜索引擎谈其技术原理,最终以 儿个开源搜索引擎软件的介绍结束全文。
由于本文初次接触此类有关搜索引擎的技术,参考了互联网上诸多牛人的文章与作品,有不 妥之处,还望诸君海涵。再者因本人见识浅薄,才疏学浅,有任何问题或错误,欢迎不吝指 正。同时,正式进军搜索引擎领域的学习与研究。谢谢。
1、什么是搜索引擎
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系 统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛, 网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一口了 然的信息地图,供用户随时查阅。
Google
o谷歌
结构之法算法之道
Google捜索
Google捜索
手气不偌
Google com hk使用下列语言:中文(繁禮〉English
搜索引擎的工作原理以最简单的语言描述,即是:
4.搜集信息:首先通过一个称为网络蜘蛛的机器人程序來追踪互联网上每一个网页的 超链接,市于互联网上每一个网页都不是单独存在的(必存在到其它网页的链 接),然后这个机器人程序便由原始网页链接到其它网页,一链十,十链百,至 此,网络蜘蛛便爬满了绝大多数网页。
整理信息:搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起
来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新 翻查它所有保存的信息而迅速找到所要的资料。
接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索
引擎每时每刻都要接到来口大量用户的几乎是同时发出的查询,它按照每个用户 的耍求检查口己的索引,在极短时间内找到用户需耍的资料,并返回给用户。
整理信息及接受查询的过程,大量应用了文本信息检索技术,并根据网络超文本的特点,引 入了更多的信息。接下来,下文便由网络蜘蛛,分词技术,到系统架构,排序一一介绍。
2、网络蜘蛛
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页 面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链 接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如 果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓 取下来。
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度 优先是指网络蜘蛛会先抓取起始网页屮链接的所有网页,然后再选择其屮的一个链接网页, 继续抓取在此网页屮链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并 行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪 下去,处理完这条线路Z后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络 蜘蛛在设计的时候比较容易。至于两种策略的区别,下图的说明会更加明确。
厂度优先的抓取顺序:A-B.C.D.E.F-H.G-I
厂度优先的抓取顺序:
A-B.C.D.E.F-H.G-I
深度优先的抓取顺序:
A-F-G
E-H-I
DedeCmsV3
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例 如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2 层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这 也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网 站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
3、中文分词
下图是我无聊之际,在百度,谷歌,有道,搜狗,搜搜,雅虎中搜索:结构之法的搜索结果 比较(读者可以永久在百度或谷歌中搜索:结构之法4个字,即可进入本博客):
?■ t?a ??rABtri fY B*MM* ffl MXM* M ■?■??r-Tt?■, * ■ ???? ?? N■24!■?■??《??■ Bear ??■M?? U???*r?CMrr
?■ t?a ??rABtri f
Y B*MM* ffl M
XM* M ■
?■??
文档评论(0)