- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录
目录 1
1 HDFS综述 4
1.1 引言 4
1.2 HDFS体系结构 4
1.2.1 Namenode 5
1.2.2 Datanode 5
1.2.3 文件系统的名字空间(namespace) 5
1.2.4 Secondary Namenode 6
1.3 HDFS数据组织 6
1.3.1 HDFS数据流-读文件 6
1.3.2 HDFS数据流-写文件 7
1.4 HDFS数据复制 8
1.4.1 副本存放 8
1.4.2 副本选择 9
1.4.3 多副本写策略 9
1.5 HDFS元数据组织 10
1.5.1 HDFS元数据及其修改的存放位置 10
1.5.2 HDFS元数据的持久化 10
1.6 HDFS健壮性 11
1.6.1 磁盘数据错误、心跳检测和重新复制 11
1.6.2 数据完整性 11
1.6.3 元数据磁盘错误 11
1.6.4 存储空间回收 12
1.6.5 负载均衡 12
1.7 总结 13
1.8 参考文献 13
2 Google FS 概述 14
2.1 背景介绍 14
2.2 GFS体系结构 15
2.3 数据组织 16
2.3.1 读写流程 16
2.4 元数据组织 19
2.5 副本放置策略 20
2.6 多副本的写策略 21
2.7 一致性策略 22
2.8 节点状态管理 23
2.8.1 消息通信 23
2.8.2 副本状态管理: 24
2.8.3 垃圾回收机制: 25
2.9 总结 26
3 Dynamo系统综述 26
3.1 简介 26
3.1.1 需求背景 26
3.1.2 主要特点 27
3.1.3 系统架构 27
3.2 主要技术介绍 29
3.2.1 分布式哈希(Distributed Hash Table) 30
3.2.2 虚节点(Virtual Node) 31
3.2.3 节点管理(Membership) 33
3.2.4 数据分区的复制(Replication) 35
3.2.5 矢量时钟(Vector clock) 35
3.2.6 读写策略(Read/Write) 37
3.2.7 反熵(Anti-entropy) 37
3.2.8 Merkle树 39
3.2.9 暗示移交(Hinted handoff) 40
3.2.10 Gossip协议 41
3.3 实现 44
3.4 总结 45
3.5 参考 46
4 Ceph分布式文件系统简介 47
4.1 简介 47
4.2 Ceph特点 47
4.3 Ceph 目标 48
4.4 Ceph 客户端 50
4.5 Ceph 元数据服务器 51
4.6 Ceph 监视器 51
4.7 Ceph 对象存储 52
4.8 其他功能 52
4.9 Ceph 的地位和未来 52
4.10 其他分布式文件系统 53
4.11 展望未来 53
4.12 参考文献 53
HDFS综述
摘要:HDFS是一个分布式的文件系统,有着高的容错性等特点,并设计用来部署在低廉的硬件上,它提供高传输率用来访问应用程序的数据,适合有着超大数据集的应用程序,为了更好的了解HDFS文件系统及其特点,本文对HDFS的体系结构,数据组织,副本策略,元数据组织,数据维护,负载均衡等方面进行了分析研究。
关键字:分布式文件系统 Hadoop HDFS
引言
当数据集超过一个单独的物理计算机的存储能力时,便有必要讲它分布到多台计算机上,管理者跨计算机网络存储的文件系统成为分布式文件系统。Hadoop是一个基于JAVA的支持数据密集型分布式应用的分布式文件系统,可以在成千个低成本商用硬件存储节点上处理PB级的数据。Hadoop是Apache开源项目,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Yahoo支持这个项目并在自己的web搜索和商业广告业务上使用它,开发类似于Google的MapReduce和GoogleFS的技术。
Hadoop包含两个部分,Hadoop文件系统(Hadoop Distributed File System,HDFS)和MapReduce编程模型,图1为Hadoop的组成部分。其中HDFS运行在商用硬件上,它和现有分布式文件系统很相似,但也具备了明显的差异性,比如HDFS是高度容错的,可运行在廉价硬件上;HDFS能为应用程序提供高吞吐率的数据访问,适用于大数据集的应用中;HDFS在POSIX规范进行了修改,使之能对文件系统数据进行流式访问,从而适用于批量数据的处理。HDFS为文件采用一种一次写多次读的访问模型,从而简化了数据一致性问题,使高吞吐率数据访问成为可能,一些Map/Reduce应用和网页抓取程序在这种访问模型下表现完美。HDFS在云计算中特别是其分布式系统布局得到了人
文档评论(0)