复杂1秒图解Google搜索技术.docVIP

下载本文档

4
0
约 12页
2016-05-04 发布于安徽
举报
版权申诉

复杂1秒图解Google搜索技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

复杂1秒图解Google搜索技术.doc

复杂的1秒图解Google搜索技术摘要：在你点击了Google搜索按钮之后到看到结果这不足1秒钟的时间内，它做了什么?大家不妨看看谷歌搜索流程图，这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。标签：Google搜索技术限时报名参加“甲骨文全球大会·2010·北京”及“JavaOne和甲骨文开发者大会2010” 谷歌(Google)，一个非常成功，但又十分神秘，而且带有几分理想化色彩的互联网搜索巨人，它还是一家相当了不起的广告公司，谷歌首页上的那个搜索按钮是其年赢利200亿美元的杀手级应用，也是Internet首屈一指的商业和技术神话。近日国外一家网站(PPCblog)精心绘制了一张谷歌搜索流程图，这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。在你点击了Google搜索按钮之后到看到结果这不足1秒钟的时间内，它做了什么?互联网上的内容如何被谷歌找到?什么样的内容会被收录?想必大家一定都想知道谷歌搜索按钮背后的秘密吧。别急，开始之前我们先来看一下神秘的谷歌数据中心。谷歌自家设计服务器谷歌的数据中心高度机密，我们所能得到的信息十分有限。我们先来看几个数据：谷歌在美国本土的数据中心有19个以上，另有17个分布在美国以外的世界各地;每个数据中心有50万平方英尺(46450平方米)，建造一个数据中心要花费约6亿美元;谷歌的数据中心是世界上最高效的设施之一，非常环保;数据中心使用50-100兆瓦的电力，考虑到冷却问题，通常建在便于用水的地方;谷歌的服务器被安置在标准的海运集装箱中，每个集装箱可容纳1160台服务器。关于谷歌的数据中心，我们就只知道这么多了。图1 谷歌自家设计的服务器? 图2服务器自备电池谷歌拥有的数十万台服务器都是自己设计的，它们认为这是公司的核心技术之一(51CTO推荐文章：Google要出服务器？英特尔要小心了)。每台服务器都配有一颗12伏电池，确保万一主电源断电时还可持续供电。至于为什么为每台服务器配备电池，谷歌的回答是成本。一般数据中心多依赖UPS(不间断电源系统)，这基本上算是大电池，会在主电力失效而发电机还来不及启动时暂时协助供电。而谷歌认为直接把电力内建到服务器更便宜，而且成本能直接跟服务器数量相符合，如此便不会浪费多余的容量。另一个原因是效率，大型UPS可达92-95%的效率，这意味着许多电力还是被浪费掉了，但谷歌采用的内建电池作法效率超过99.9%。? 图3 谷歌的服务器被安装在集装箱中，每个集装箱容纳1160台图4工作中的谷歌员工谷歌如何找到并收录你上传的内容? 图5发生在用户搜索之前谷歌使用它的爬虫工具在一刻不停地周游互联网世界的每一个角落。上图中间的6个步骤依次描绘了从内容出现在互联网上到内容被收录进谷歌的数据库供用户检索这一过程，其中第2、3、5步又有许多分支，所有这些都是为了建立一个信息集汇池，这是第一个阶段的工作，第二个阶段才是从这个池中为用户筛选他们所需要的内容。接下来我们一步步看谷歌是如何搜集并整合信息的。 1、网友上传内容，比如博客、微博或其它类型的WEB内容被更新到网上。 2、Google的爬虫发现了这一更新。在这一步，谷歌加入了许多判断机制，主要包括以下几点： 2.1、Google的爬虫沿着链接路径(URL)周游互联网，但如果没有URL指向某一站点，则这一站点将不会被索引。 2.2、如果你在robots.txt中设置了不许索引(部分或全部)，Google的爬虫将不会抓取你站点上的相应内容。 2.3、如果指向你站点的连接上有nofollow标签，Google的爬虫将不会从这些URL路径来到你的站点。如下图：图6　图7　网页原代码中的nofollow标签 URL就像是Google爬虫周游互联网时的路标，谷歌当然希望收录有价值的网页，所以必须采取一种机制分辨哪些URL是垃圾信息，nofollow标签正是谷歌所倡导的方法之一。网站的合法更新人员几乎不会上传垃圾URL，但它们往往大量出现在评论跟帖和论坛中，就像上图中的例子，这些URL对于谷歌来讲是没有意义的，为了防止爬虫经由这些URL到达某一站点，在源代码中它们都会自动被加上nofollow标签。 2.4、Google也能通过blog软件或xml站点地图找到你的网站。 2.5、从权威性越高的网站链接到你网站的URL越多，你的网站的权威性也就越高，但Google爬虫始终会忽略被加上了nofollow标签的URL。上面这几点大概就是谷歌在收录信息时对内容提出的准入要求，看来在一些开放的地方(比如论坛)大量发布URL以求让谷歌关注，这一小伎俩是没有什么效果的。以上是信息被谷歌收录之前