Google网站架构剖析.docVIP

下载本文档

0
0
约3.01万字
约 9页
2017-06-01 发布于河南
举报
版权申诉

Google网站架构剖析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Google网站架构剖析

Google网站架构分析 Google网站架构分析 2009年5月3日分享: 发表评论阅读评论 Google是可伸缩性之王。每个人都知道Google是因为他们对大量，复杂信息的快速搜索，但是Google的技术并不只是在搜索领域闪闪发光。他们构建大型应用的平台方式能够让他们以惊人的竞争速度在网络规模应用上面大展拳脚。Google的目标一直是构建更高性能更高规模基础设施来支持他们的产品。他们怎么做到的呢？参考资料以及信息来源视频：在Google上构建大型系统 (Video: Building Large Systems at Google) Google实验室：Google文件系统 (Google Lab: The Google File System) Google实验室：MapReduce：在大规模集群上简化数据处理 (Google Lab: MapReduce: Simplified Data Processing on Large Clusters) Google实验室：BigTable: (Google Lab: BigTable.) 视频：BigTable: 一个分布式的结构化存储系统 (Video: BigTable: A Distributed Structured Storage System.) Google实验室：松散耦合的分布式系统的 Chubby Lock服务 (Google Lab: The Chubby Lock Service for Loosely-Coupled Distributed Systems.) Google是如何工作的作者 David Carr发表于Baseline杂志 (How Google Works by David Carr in Baseline Magazine.) Google实验室：翻译数据：使用Sawzall并行分析(Google Lab: Interpreting the Data: Parallel Analysis with Sawzall.) 可伸缩性大会上Dare Obasonjo的笔记 (Dare Obasonjo’s Notes on the scalability conference.) 平台 ? Linux ? 多种不同的语言： Python, Java, C++ 数据揭秘目前的情形： ? 2006年估计有450,000个价格便宜的商用服务器 ? 2005年Google索引了80亿的web页面。到现在为止有多少，已经无法统计出来了。 ? 目前Google有超过200GFS的集群。一个集群能有1000甚至5000个机器。成百上千的机器从运行大到5peta字节存储的GFS集群检索数据。通过集群的总的读写吞吐量达到每秒400亿字节。 ? 目前在Google有6000个 MapReduce应用，并且每个月有几百个新的应用正在出现。架构的层次 Google把他们的基础设施架构描述为三个层次栈： ? 产品：检索，广告，电子邮件，地图，视频，聊天，博客 ? 分布式系统基础设施：GFS, MapReduce, 以及BigTable。 ? 计算平台：很多不同数据中心的很多机器 ? 确保公司员工容易低成本配置。 ? 看看每个应用基线的价格性能数据。把更多的钱花在硬件上以期不丢失日志数据，但是在其他类型的数据上花少一点。既然这样处理，实际上他们就不会丢数据。使用GFS（Google文件系统）的可靠存储机制 ? 可靠的可伸缩存储是任何应用的一个核心需要。GFS就是他们的核心存储平台。 ? Google文件系统- 大的分布式日志结构化文件系统，里面有大量数据 ? 为什么不用其他的而非要构建一个文件系统呢？因为他们需要控制所有的事情，而正是这个平台把他们和其他任何一个区分开来。他们需要： - 通过数据中心的高可靠性 - 对于几千个网络节点的可伸缩性 - 大的读写带宽需求 - 支持十亿字节大的数据块 - 高效的通过节点减少瓶颈的分布式操作 ? 系统有主服务器和分块服务器（chunk servers） - 主服务器在各种数据文件上保存元数据。数据以64MB大的块存储在文件系统中。客户机和主服务器对话来操作文件里的元数据，定位包含了磁盘上他们需要的数据的分块服务器。 ? 一个新的应用可以使用一个已经存在的GFS集群或者他们自己制作。去理解他们使用的通过数据中心的这个供应过程将是非常有趣的。 ? 主键是足够的基础设施来确保人们对他们的应用有多种选择。可以调整GFS以适应个人应用需要。使用MapReduce对数据做一些事情 ? 既然你有了一个好的存储系统，你怎样使用如此多的数据呢？假如说你有很多TB的数据存储在1000台机器上。数据库不能扩展或者有效