Google系统架构之道.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Google系统架构之道.pdf

Google 系统架构之道 Google 是可扩展性系统设计之王。Google 一直的目标就是构建高性能高可扩展性的基础 设施来支持它们的产品。 平台  操作系统:Linux  丰富语言:Python,Java ,C++ 现状  在 2006 年大约有 450,000 台廉价服务器。  在 2005 年 Google 就索引了 80 亿 Web 页面,现在没人知道具体是多少。  目前在Google 有超过 200 个 GFS 集群。一个集群可以有 1,000 或者甚至 5,000 台机器。  成千上万的机器从容量为 5 Peta 字节的 GFS 集群服务器中检索数据,集群总 读写吞吐量可以达到 40G/秒  目前在Google 已有6000 个 MapReduce 程序,而且每月有上百个新程序出现。  在 BigTable 中记录了几十亿的URL,几百 T 的卫星图象和数亿用户的使用偏 好。 分层 Google 系统架构可以大致分成三层:  产品应用层:搜索,广告,电子邮件,地图,视频,聊天,博客  基础设施层:GFS,MapReduce 和 BigTable  计算平台层:分布在一堆不同的数据中心中一堆机器  确保公司里的人以很小的代价、能很容易地部署起他所需要的系统  重视单个应用的成本,将更多的钱投到能防止日志数据丢失的硬件上,而不是 其他什么方面。 可靠的存储系统 GFS (Google File System)  建立起一个高可靠、高可扩展的存储系统是做任何应用的核心需求。GFS 就是 Google 使用的一个核心存储平台。  GFS - 是一个大型分布式结构化的日志文件系统,Google 在里面存放了大量的 数据。  为什么自建 GFS,而不是利用其他现成的产品,其主要原因是自建能对系统有 更大的掌控力,且对 Google 来说,该平台还要满足自己独特的一些需求: o 实现能跨越各个数据中心的高可靠性的处理 o 具有可连接千万网络节点的能力 o 能提供巨大读写带宽的支持 o 实现以 G 为单位的大数据块处理 o 高效的跨节点操作分发技术,降低瓶颈问题的发生  GFS 系统又分 Master 和 Chunk 服务器 o Master 服务器负责存放能指示各种数据文件属性的元数据。这些数据以 64MB 为单位存 储在文件系统中。客户程序通过与 Master 服务器对话,获知用户需要数据都存放在那些 Chunk 服务器中。 o Chunk 服务器是系统实际存放数据地方。每个 Chunk 通常会被复制到 3 个不同的 Chunk 服务器上以防止某台服务器出现问题。一旦从 Master 服务器上得到指示,客户程序就会直 接从 Chunk 服务器读取文件。  一个新上线应用即可以使用已有的 GFS 集群,也可以做一个自己的 GFS 集群  重要的在于要有足够的基础设施,使人们对他们的应用有所选择,GFS 是可以 调整的,以适应不同应用的不同需要。 使用MapReduce 来处理数据  现在你已经有了一个很好的存储系统,你该如何处理如此多的数据呢?比如你 现在已经在 1,000 台机器上存放了很多TB 的数据,而目前的数据库技术是很 难支持到如此级别的数据处理的,或者说,要扩展到这样规模花费极大,这就 是 MapReduce 出现的原因。  MapReduce 是一个能用于处理和生成大规模数据环境的编程模型和相关实现。 在该模型下,要求用户自己定义好两个函数,一个是 Map 函数,将原始数据改 造成键/值对形式,另一个 Reduce 函数,确定如何对上面Map 函数产生的键/ 值对数据进行归并。当前许多真实世界的任务都可以使用这种模型来表达,而 以这种风格写的程序会自动、并行地在一个大型的集群系统

文档评论(0)

feiyang66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档