关键运行机制及APIClientProtocol文件基本操作接口.PPT

下载文档 降价啦

6
0
约8.07千字
约 30页
2017-09-15 发布于天津
举报
版权申诉
保障服务

关键运行机制及APIClientProtocol文件基本操作接口.PPT

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关键运行机制及APIClientProtocol文件基本操作接口

1、为什么提出云存储? 比之传统的存储：扩展性在PB级；开放可编程；更接近计算；Low cost for better scalability;unstructured data(image,haystack 28% cheaper than NAS); structured data\email ,webpage,UGC(User Generated Content) 与Cluster NAS比较好的scalability、hiavailability 2、存储的表现形式个人认为，现今的存储形式分为：文件存储形式（HDFS即属于这种形式）、数据库 * Content Layouts 这个架构图是Hadoop 1.0期的架构问题是SPoF(Single Point of Failure) 在Hadoop 2.2.0版本，将NameNode并行多个，各个独立，DataNode与各NameNode之间进行通信，当然，这中间会不会有什么问题？NameNode之间虽然独立，但当多个NameNode同时发出某个命令时，以哪个NameNode为准？——我相信这后面还有机制和算法来解决或研究 * 云存储之HDFS Outline HDFS简介空间结构通信协议簇及Shell 关键运行机制及API 4 1 2 3 HDFS简介 Hadoop项目/ Doug Cutting,基于Lucene的开源项目Nutch,其目标是构建出一个包括网络蜘蛛、文件存储等模块的网页搜索系统; 受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。2006 年 3 月份，从nutch0.8.0开始，将其中实现的NDFS和MapReduce剥离出来成立一个新的开源项目，这就是Hadoop. HDFS(Hadoop Distributed File System) /docs/stable/hadoop-project- dist/hadoop-hdfs/Federation.html HDFS简介管理网络中跨多台计算机存储的文件系统称为分布式文件系统。 HDFS是Hadoop中的分布式文件系统（Hadoop Distributed File System）。 HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements），这样可以流的形式访问（streaming access）文件系统中的数据。 HDFS是基于块存储的。HDFS中的文件是被分成 64M一块的数据块存储的。如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。 HDFS简介假设前提与目标硬件故障是常态。因此，故障检测与快速自动故障恢复是HDFS设计的核心目标；流式访问。HDFS不是普通的文件系统，它被设计适合于批量处理的情形，而不是在于与用户的交互性。因此，它更注重于高的传输率，而不是低延迟性。也因此，而放宽了POSIX的语法要求。大数据集。HDFS主要设计用来存储海量的大文件。因此，高带宽和可扩展到成百上千个节点也成为HDFS设计的主要目标。简单的一致性模型。HDFS假设文件的读写模式是一次写多次读模式，这种模式简化了数据的一致性问题，并且使得数据传输效率高。移动计算比移动数据成本低。空间结构 /HDFS/ArchDocOverview.html 空间结构 /docs/stable/hadoop-project-dist/hadoop-hdfs/Federation.html 空间结构从上面的图中可以看出，Namenode，Datanode，Client之间的通信都是建立在TCP/IP的基础之上的。当Client要执行一个写入的操作的时候，命令不是马上就发送到Namenode，Client首先在本机上临时文件夹中缓存这些数据，当临时文件夹中的数据块达到了设定的Block的值（默认是64M）时，Client便会通知Namenode，Namenode便响应Client的RPC请求，将文件名插入文件系统层次中并且在Datanode中找到一块存放该数据的block，同时将该Datanode及对应的数据块信息告诉Client，Client便这些本地临时文件夹中的数据块写入指定的数据节点。 HDFS采取了副