googlefacebookTwittereBay腾讯淘宝技术发展历程.docxVIP

下载本文档

6
0
约6.32千字
约 7页
2017-02-04 发布于北京
举报
版权申诉

googlefacebookTwittereBay腾讯淘宝技术发展历程.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

googlefacebookTwittereBay腾讯淘宝技术发展历程

知名网站的技术发展历程互联网已经发展多年，其中不乏脱颖而出者，这些网站多数都已存在了接近10年或10年以上，在如此长时间的发展过程中，除了业务上面临的挑战，在技术上也面临了很多的挑战。我挑选了一些Alexa排名较前的网站(排名截止到2012年4月21日)，看看它们在技术上是如何应对业务发展过程中的挑战的。Google目前Alexa排名第1。它诞生于1997年，当时是一个研究性项目，每个月build一次索引，build出来的索引通过sharding(shard by doc)的方式分散到多台服务器(Index Server)上，具体的网页数据同样通过sharding的方式分散到多台服务器(Doc Server)上，当用户提交请求时，通过前端的一台服务器将请求提交给Index Server获得打了分的倒排索引，然后从Doc Server提取具体的网页信息(例如网页标题、搜索关键词匹配的片段信息等)，最终展现给用户。随着索引的网页增加，这个结构可通过增加Index Server以及Doc Server来存储索引以及网页的数据，但仍然会面临其他很多方面的问题，于是在这之后的十多年的时间里，Google做了很多事情来改进上面的结构。1999年，Google增加了一个Cache Cluster，用来Cache查询的索引结果和文档片段信息，同时将Index Server和Doc Server通过Replicate的方式变成了Cluster。这两个改造带来的好处是网站的响应速度、可支撑的访问量以及可用性(Availability)得到了提升。这个变化造成了成本的增加，Google在硬件方面的风格始终是不用昂贵的高端硬件，而是在软件层面来保证系统的可靠性及高性能，于是同年，Google开始采用自行设计的服务器来降低成本。2000年，Google开始自行设计DataCenter，采用了各种方法(例如采用其他的制冷方法来替代空调)来优化PUE(能源利用率)，同时对自行设计的服务器也做了很多化。2001年，Google对Index的格式进行了修改，将所有的Index放入内存，这次改造带来的好处是网站的响应速度以及可支撑的访问量得到了极大的提升。2003年，Google发表了文章Google Cluster Architecture，其Cluster结构组成为硬件LB+Index Cluster+Doc Cluster+大量廉价服务器(例如IDE硬盘、性价比高的CPU等)，通过并行处理+sharding来保证在降低对硬件要求的同时，响应速度仍然很快。同年Google发表了关于Google文件系统的论文(GFS在2000年就已经上线)，这篇论文很大程度也体现了Google不用昂贵硬件的风格，通过GFS+大量廉价的服务器即可存储大量的数据。2004年，Google再次对Index的格式进行了修改，使得网站的响应速度继续提升。同年Google发表关于MapReduce的论文，通过MapReduce+大量廉价的服务器即可快速完成以前要使用昂贵小型机、中型机甚至是大型机才能完成的计算任务，而这显然对于Google快速地构建索引提供了很大的帮助。2006年，Google发表了关于BigTable的论文(2003年开始上线)，使得海量数据的分析能够达到在线系统的要求了，这对于Google提升网站的响应速度起到了很大的帮助。以上3篇论文彻底改变了业界对于海量数据的存储、分析和检索的方法(小道消息：Google内部已完成了GFS、MapReduce、BigTable的替换)，也奠定了Google在业界的技术领导地位。在一些场景中，Google也采用MySQL来存储数据。同样，Google对MySQL也做了很多修改，它使用的MySQL信息可以从/p/google-mysql/了解。2007年，Google将build索引的时间缩短到分钟级，当新网页出现后，几分钟后即可在Google搜索到，同时将Index Cluster通过Protocol Buffers对外提供Service，以供Google各种搜索(例如网页、图片、新闻、书籍等)使用，除了Index Cluster提供的Service外，还有很多其他的Service，例如广告、词法检查等。Google的一次搜索大概需要调用内部50个以上的Service，Service主要用C++或Java来编写。2009年，Google的一篇《How Google uses Linux》文章，揭示了Google在提升机器利用率方面也做了很多的努力，例如将不同资源消耗类型的应用部署在同一台机器上。在之后，Google又研发了Colossus(下一代类GFS文件系统)、Spanner(下一代类BigTable海量存储和计算架构)、实时