关键运行机制及APIClientProtocol文件基本操作接口.PPT

关键运行机制及APIClientProtocol文件基本操作接口.PPT

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关键运行机制及APIClientProtocol文件基本操作接口

1、为什么提出云存储? 比之传统的存储:扩展性在PB级;开放可编程;更接近计算;Low cost for better scalability;unstructured data(image,haystack 28% cheaper than NAS); structured data\email ,webpage,UGC(User Generated Content) 与Cluster NAS比较 好的scalability、hiavailability 2、存储的表现形式 个人认为,现今的存储形式分为:文件存储形式(HDFS即属于这种形式)、数据库 * Content Layouts 这个架构图是Hadoop 1.0期的架构 问题是SPoF(Single Point of Failure) 在Hadoop 2.2.0版本,将NameNode并行多个,各个独立,DataNode与各NameNode之间进行通信,当然,这中间会不会有什么问题?NameNode之间虽然独立,但当多个NameNode同时发出某个命令时,以哪个NameNode为准?——我相信这后面还有机制和算法来解决或研究 * 云存储之HDFS Outline HDFS简介 空间结构 通信协议簇及Shell 关键运行机制及API 4 1 2 3 HDFS简介 Hadoop项目/ Doug Cutting,基于Lucene的开源项目Nutch,其目标是构建出一个包括网络蜘蛛、文件存储等模块的网页搜索系统; 受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。2006 年 3 月份,从nutch0.8.0开始,将其中实现的NDFS和MapReduce剥离出来成立一个新的开源项目,这就是Hadoop. HDFS(Hadoop Distributed File System) /docs/stable/hadoop-project- dist/hadoop-hdfs/Federation.html HDFS简介 管理网络中跨多台计算机存储的文件系统称为分布式文件系统。 HDFS是Hadoop中的分布式文件系统(Hadoop Distributed File System)。 HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements),这样可以流的形式访问(streaming access)文件系统中的数据。 HDFS是基于块存储的。HDFS中的文件是被分成 64M一块的数据块存储的。如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 HDFS简介 假设前提与目标 硬件故障是常态。因此,故障检测与快速自动故障恢复是HDFS设计的核心目标; 流式访问。HDFS不是普通的文件系统,它被设计适合于批量处理的情形,而不是在于与用户的交互性。因此,它更注重于高的传输率,而不是低延迟性。也因此,而放宽了POSIX的语法要求。 大数据集。HDFS主要设计用来存储海量的大文件。因此,高带宽和可扩展到成百上千个节点也成为HDFS设计的主要目标。 简单的一致性模型。HDFS假设文件的读写模式是一次写多次读模式,这种模式简化了数据的一致性问题,并且使得数据传输效率高。 移动计算比移动数据成本低。 空间结构 /HDFS/ArchDocOverview.html 空间结构 /docs/stable/hadoop-project-dist/hadoop-hdfs/Federation.html 空间结构 从上面的图中可以看出,Namenode,Datanode,Client之间的通信都是建立在TCP/IP的基础之上的。当Client要执行一个写入的操作的时候,命令不是马上就发送到Namenode,Client首先在本机上临时文件夹中缓存这些数据,当临时文件夹中的数据块达到了设定的Block的值(默认是64M)时,Client便会通知Namenode,Namenode便响应Client的RPC请求,将文件名插入文件系统层次中并且在Datanode中找到一块存放该数据的block,同时将该Datanode及对应的数据块信息告诉Client,Client便这些本地临时文件夹中的数据块写入指定的数据节点。 HDFS采取了副

文档评论(0)

wumanduo11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档