- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎的技术架构 By:觉白 搜索引擎真的这么简单? 第一部分 搜索引擎如何获取并存储海量的数据 首先,应该讲到的是爬虫。因为搜索引擎的信息来源于互联网网页,通过网络爬虫将整个互联网信息获取到本地。 其次,“网页去重”。我们把互联网信息获取到本地后,由于互联网上有些信息是完全相同的或者近似重复的,因此就需要网页去重模块对此作出检测,并去除重复内容。 在此之后,搜索引擎会对网页进行解析,抽取出网页主体内容,以及页面中包含的其他页面链接。之所以保存链接,是因为这种链接关系在网页相关性排序阶段是可以利用的,通过“链接分析”可以判断出页面的相对重要性。 最后,因为网页的数量太多,搜素引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果,使用少量的机器明显是不现实的,因此搜索引擎开发了一整套的云存储与云计算平台。 回顾 刚才所学到的是搜索引擎如何获取并存储海量的网页相关信息,这些功能因为不需要实时计算,所以可以被看成搜索引擎的后台计算系统。而搜索引擎的最重要的目的是为用户提供准确全面的搜索结果,如何响应用户查询并实时的提供准确结果构成了搜索引擎前台计算系统。 第二部分 搜索引擎的前台计算系统 当搜索引擎接收到用户的查询词后,首先应该是对查询词进行分析,希望能够结合查询词和用户信息来正确推到的真正搜索意图。 其次,搜索引擎缓存系统。在分析完用户查询词的搜索意图后,那么首先会在缓存中查找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能在缓存系统中找到满足用户需求的信息,可以直接将搜索结果返回给用户。 那么如果没有找到,搜索引擎将调用“网页排序”模块功能,根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜素结果。而排序的重要参考因素就是,一个是相关性因素,另外一个是网页重要性因素。 反作弊模块 除了我们刚才所学到的模块,搜索引擎的“反作弊”模块也是非常重要的。因为搜素引擎作为互联网用户的上网入口,对网络流量的引导至关重要,甚至可以说起到了至关重要的作用。于是,各种“作弊”方式就流行起来了,通过各种手段将网页的搜索排名提高到与其网页质量不相称的位置,这严重的影响了用户的搜索体验。因此,反作弊模块是必不可少的。 搜索引擎架构示意图及总结 结束语 谢谢大家的观看! * 极客SEO之搜索引擎算法系列 因为了解,所以才能做的更好 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 答案是,NO!我们要透过现象看本质,不要被搜索引擎简单的外表所欺骗。事实上,搜索引擎已经成为互联网应用中最具技术含量的应用之一。优秀的搜索引擎需要复杂的架构和算法,以此来支撑对数以百亿计的海量数据获取、存储,以及对用户查询的快速而准确的响应。那么接下来,我们从两个方面来学习下搜索引擎的技术架构。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. Evaluation only. Created with Aspose.Slides
文档评论(0)