- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
建筑工程安全防护文明施工措施费核
典型数据中心:Google 数据中心 简介 全球共建有近40个大规模数据中心 单个数据中心需要至少50兆瓦功率,约等于一个小型城市所有家庭的用电量 独特的硬件设备:定制的以太网交换机、能源系统等 自行研发的软件技术:Google File System、MapReduce、BigTable等 Google File System GFS的设计观念 组件失效不再被认为是意外,而是被看做正常的现象 GFS的文件非常巨大 对文件的操作具有特定的模式 应用程序和文件系统API的协同设计提高了整个系统的灵活性 Google File System GFS的设计架构 一个GFS集群包含一个主服务器和多个块服务器,并被多个客户端访问。 文件分成固定大小的“块”。每个块在创建时都由主服务器分配一个固定不变的64位句柄唯一标识。 块服务器把块作为Linux文件存储在本地磁盘上,并根据指定的块句柄和字节范围对数据块进行读写操作。 Google File System GFS的设计架构(续) 主服务器维护所有文件系统的元数据,包括名字空间、访问控制信息、文件到块的映射信息以及块当前的位置。此外,主服务器还控制其它系统级的活动。主服务器周期性地与块服务器通信,以下达指令和收集状态。 GFS客户端代码被嵌入到每个应用中。它实现了文件系统API,实现主服务器与块服务器的通信从而代表应用实现读写操作。客户端与服务器交互从而实现元数据操作,但所有的数据操作都通过直接与块服务器交互而完成。 MapReduce MapReduce是一种针对超大规模数据集的编程模型和系统 用MapReduce开发出的程序可在大量商用计算机集群上并行执行、处理计算机的失效以及调度计算机间的通信 MapReduce的基本思想 用户写的两个程序:Map和Reduce 一个在计算机集群上执行多个程序实例的框架 MapReduce MapReduce程序的执行过程 BigTable BigTable是一种用来在海量数据规模下(例如包含以PB为单位的数据量和数千台廉价计算机的应用)管理结构化数据的分布式存储系统。 应用 Google地球 网页索引 RSS阅读器 … BigTable 每个BigTable都是一个稀疏的、分布式的多维有序图,按行键值、列键值和时间戳建立索引 典型数据中心:Hadoop 什么是Hadoop? Apache开源组织的一个分布式计算开源框架 用于在大型集群的廉价服务器设备上运行数据密集型分布式应用程序 在早期实际上是Google文件系统与MapReduce分布式计算框架及相关IT基础服务的开源实现 Hadoop包括多个子项目 HDFS、 MapReduce、 HBase 、Chukwa、Pig、ZooKeeper等 HDFS Hadoop Distributed File System 数据中心的研究热点 2006年Google在数据中心项目上的花费为19亿美元,而2007年该项支出增加到24亿美元。 Google在俄勒冈州的数据中心有近100兆瓦的功率,满负荷运行时消耗的电力基本上和纽卡斯尔(Newcastle)一个城市所有家庭的用电量加起来一样多。 研究热点:如何在保证服务质量的前提下降低成本? 数据中心的成本构成 基础设施部分包括能源系统、降温系统、各种防火设备、安保设备等。降低这一部分成本往往涉及到机械设备制造技术或政策优惠等因素,与计算机学科的关联程度相对较低。 我们分别从服务器,网络设备,能源三个方面对造成高成本的原因和目前的解决方法进行简要介绍。 服务器成本 服务器 网络设备 能源 服务器的实际利用效率较低 分配到各服务器的应用不能完全利用某些组件 对应用需求的预测比较难,无法做到按需分配 为了提高系统的可靠性,一般都留有冗余设备 提高服务器利用率的关键在于及时应对需求的动态变化 网络设备成本 服务器 网络设备 能源 主要来源 交换机、路由器、负载均衡设备 传统的数据中心使用树形结构,核心交换机和路由器构成流量瓶颈,且造价昂贵 研究热点:新的数据中心网络结构 以交换机为中心的多层树形结构:例如Fat-Tree 以服务器为中心的互联结构:例如DCell 能源成本 服务器 网络设备 能源 研究热点 降低服务器工作能耗 降低同等性能设备能耗 提高同等能耗设备性能 可调整负载的服务器 减少降温系统能耗 精细、精准的温度控制 集装箱式模块化数据中心 数据中心能耗构成 本章小结 内容回顾 本章介绍了三种基本的网络存储体系结构,并讨论了数据中心的基本概念,以Google数据中心和Hadoop为例,简要介绍了数据中心的相关技术,最后指出了数据中心的研究热点。 重点掌握 了解物联网对海量数据存储的迫切需求。 重点掌握三种基本的网络存储体系结构(DAS,NA
文档评论(0)