分析分布式文件系统精品.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分析分布式文件系统---HDFS 数计学院 魏博文 1315063011 系统发展的背景---云计算技术 自从计算机得到大规模应用,信息技术经历了三次重大变革,第一次变革是上世纪80-90年代个人PC的普及,第二次是最近10年互联网的普及,第三次伴随着互联网用户的不断增长,对计算机各种应用需求的不断增加以及由此产生日志类型的数据变得越来越庞大,企业和机构对海量数据存储和处理的要求日趋迫切,随着计算机技术的不断发展,一种将两者统一的技术出现---云计算技术。 云计算的特点 从技术上讲,它是一个为用户屏蔽了底层异构的软硬件资源,为其提供服务和资源的平台,各种不同类型的资源经过层层的虚拟化技术之后,针对虚拟资源的分配,共享和使用。 云计算技术最大的特点莫过于其高扩展性和低成本,“云”的规模可以动态伸缩,服务提供方根据用户增长的规模,适时增加服务器节点来提高云计算的计算能力。“云”所采用的特殊的容错机制和措施使得通过及其廉价的节点构建成为可能。 云计算里的一个重要技术---分布式文件系统 网络的出现给计算机界带来了新的革命,从开始的实现两台机器之间拷贝文件实现共享,到后来出现了可以透明访问远程文件的文件系统。分布式文件系统将用户的共享性扩展到网络连接的不同机器,从而为海量数据的应用提供了存储基础。分布式文件系统(DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。 分布式文件系统的历史 在早期阶段(1980-1990)的分布式文件系统一般以提供标准接口的远程文件访问为目的,在受网络环境,本地磁盘,处理器速度等方面限制的情况下,更多得关注访问的性能和数据的可靠性。 第二阶段(1990-1995),随着磁盘技术的进步,单位存储的成本不断下降。Windows的出现,极大地推动了处理器的发展和微型电脑的普及;互联网的出现和逐渐普及,使得在网络中传输实时多媒体数据的需求和应用逐渐流行起来。 在第三阶段(1995-2000),计算机技术和网络技术有了飞速的发展,单位存储的成本不断降低。而数据总线带宽,磁盘速度的增长无法满足应用对于数据带宽的需求,存储子系统成为计算机系统的瓶颈。后期网络技术的发展和普及应用极大地推动了网络存储技术的发展,基于光纤管道的SAN,基于网络附连存储的NAS得到了广泛的应用。 两种体系结构逐渐成熟,研究人员开始考虑如何将两种体系结构结合起来以充分利用两者的优势。 另一方面,基于多种分布式文件系统的研究成果,人们对系统结构的不断认识,同时网络的一些研究成果也推动了分布式系统结构的发展。 HDFS的出现 随着信息数字化的深入,各种应用对存储系统提出了更多的需求1)大容量2)高性能3)高可用性4)可扩展性5)可管理性6)按需服务,这一时期IBMStorageTank,Cluster的Lustre,Google的GFS,Hadoop的HDFS是这种体系结构的代表。 Hadoop分布式文件系统HDFS被设计成可以在通用硬件上运行的分布式文件系统。它与现在有的分布式文件系统有很多的共同点,但同时与其他分布式文件系统的区别也是非常明显的。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。 HDFS的设计思想和主要优势 HDFS的设计思想:1.硬件错误作为常态。2.采用流式数据访问。3.针对海量数据集。4.数据的简单的一致性模型。5.移动计算比移动数据更划算。6.异构软硬件平台间的可移植性。 HDFS的主要优势:1.支持海量存储2.全局命名空间3.数据高可用性4.服务高可靠性5.系统扩展性好6.数据安全性7.易用性8.支持MapReduce编程框架9.支持Hbase,Hypertable等分布式索引系统。 HDFS系统结构 从体系结构上看,HDFS采用C/S结构。HDFS中有三种角色:客户端,NameNode和DataNode,其示意图如下: HDFS中的文件一般具有规模大,数量少的特点,针对大文件存储,文件存储的单位时数据块(Block),HDFS按照一定的策略,将这些Block散步在数据节点上存放。NameNode是一个中心服务器,存放着文件的元数据信息,它负责管理文件系统的名字空间以及客户端对文件的访问。DataNode一般是一个节点一个,负责管理它所在节点的存储,它可以和MapReduce体系结构中的TaskTracker同处一个节点。 HDFS的运行机制 集群中单一NameNode的结构大大简化了系统的架构。NameNode是所有HDFS元数据的仲裁者和管理者,这样,用户数据永远不会流过NameNode。客户端要访问一个文件,首先从NameNode获得组成文件的数据块的位置列表,也就是数据块存放在哪些DataNode上;然后客户端直接与相应的DataNode建立

文档评论(0)

挑战不可能 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档