- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜刮引擎检索技巧
搜索引擎检索技术
搜索引擎检索技术
《阿凡达》全球首映,引起轰动,影迷需要对该影片进行全方位的了解,可能需要去腾讯网找资讯,去新浪网找新闻,去优酷网找相关视频,去百度图片找相关图片……,最后去保利电影院的网站定一张电影票。其实事情可以不用如此复杂,打开,输入“阿凡达”,点击“搜索”按钮,用户马上得到关于该影片的资讯、新闻、视频、图片、排档、影院、影评等信息。
如此简单的一个输入框+搜索按钮,却可以实现如此神奇的一站式搜索服务,为用户提供丰富、准确的信息,这要归功于一个强劲的后台引擎。用户可曾想过,这么简单的行为,后台引擎可能会有成千上万台机器在为你服务。搜索引擎就像一台高效运转的发动机,不停响应用户的请求,输出用户想要的信息。
搜索引擎技术,可以细分为爬取、索引、检索、排序等相关领域的技术。爬取负责从互联网下载网页信息;索引负责把网页信息建立顺排和倒排索引;检索负责从索引中,把用户查询相关的网页召回;而排序负责如何对检索召回的网页进行排序,给用户一个更相关的结果。
高效的检索系统需要提供亿级次每日的检索服务能力,在100ms左右从千亿级的海量网页中获取相关的数据,同时提供稳定、7*24小时的服务和高可靠的容错机制。这需要一个高性能、稳健的引擎作为支持,是一个充满挑战的技术领域。随着网页数量的急剧膨胀、新硬件技术的快速发展、WEB2.0等实时性网页的出现,检索技术必须不断发展,以适应这些变化。检索系统的一些关键技术如下文所述。
1.网页分类/分层技术
千亿级的海量网页,包含各个类别、各种质量的网页,可以说是内容丰富、鱼龙混杂。从时间的维度上讲,网页的更新频率千差万别,有些网页1分钟更新一次,有些网页从存在到死亡都不会更新;从质量上讲,有些网页是高质量的网页,有些质量很差,甚至属于垃圾,没有任何价值;从内容上讲,网页的信息包含的内容极其丰富,有新闻、图片、视频、音乐、博客、资讯、小说等等。搜索引擎需要研究如何对网页进行分类、分层,对不同类别的网页采用差异化的存储和处理,以保证在有限的硬件资源下,提供给用户一个高效的检索系统,同时提供给用户相关、丰富的检索结果。
2.检索算法
千亿级的海量数据、亿级的日服务能力、100ms搜索延迟、成千上万台服务机器,如此大规模的检索系统,必然要求有高效的检索算法支持,包括索引组织方法、召回算法、压缩解压算法、缓存算法、调度算法等等。
3.新硬件应用
新硬件的发展总是超乎想象,在可展望的未来,单服务器将迎来100核的时代,在多核时代,需要研究计算任务的分配和调度;GPU的出现,提供了数百倍于通用CPU的计算能力,研究适用于GPU架构的算法和数据结构,为未来高性能的计算提供可能;SSD的出现,解决了磁盘寻址和读写能力不足的硬伤,SSD提供数十倍于传统硬盘的IO能力,如何利用该设备,设计适合的存储方式和算法,成为一个新的研究方向。硬件发展日新月异,给我们带来了机遇,同时也带来挑战,检索系统必须从架构、数据存储、算法等各个方面,不断去适应新硬件的发展。
4.专用操作系统
通用的操作系统为了满足不同类型的应用,从而考虑一些固定、通用的策略,然而,并不是所有的应用都能很好的适应这种策略,因此,通用性往往会导致应用性能的降低。为了提供更高效的检索服务,需要对通用操作系统的策略做调整,以满足特殊应用的需求。这种调整包括线程调度、内存管理、缓存、IO、网络通信等策略。
5.实时检索技术
互联网的发展,已经打破了传统媒体批量累积、定时出版的模式,用户对信息获取的实时性要求越来越高,甚至很苛刻。用户不再满足今天发生的事情,明天才能知道,而会要求知道1分钟之前发生的事情。WEB2.0、微博、突发事件等因素使得互联网时时刻刻存在实时性的网页。用户的主观要求和信息的客观存在对搜索引擎处理实时数据的要求越来越高,需要一种特殊的爬取、索引、检索技术,以支持对实时数据的处理。
6.架构与分布式存储和计算平台上的检索系统
传统的单机存储和计算资源调度方式,在驾驭海量数据存储和海量计算过程中,存在明显的短板,越来越感觉到心有余而力不足,主要体现在以下几个方面:
(1)数据容灾:磁盘故障是最频繁发生的硬件故障之一,这导致存放在磁盘上的数据,永远处于不安全的状态;
(2)资源的调度和利用:直接面对用户的互联网服务,流量的分布是一条有波峰和波谷的曲线,而系统设计的容量要保证峰值时的服务质量,这就导致在系统闲时大量资源的浪费,据统计,互联网业务的机器资源使用率在20%左右,甚至更低,搜索引擎面对海量的数据和海量计算,需要大量的机器资源,这种浪费更加明显;
(3)故障恢复:面对时刻存在的硬件故障,人工恢复的方式低效并且容易出错,更大的问题是浪费了大量的人力。可以想象一下,
文档评论(0)