- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HDFS初步研究,hdfs命令,hadoophdfs,hdfs原理,hadoophdfs命令,hdfsjavaapi,hdfsapi,hdfs安装,sparkhdfs,javahdfs
HDFS 初步研究
1. 概览
HDFS(Hadoop Distributed File System)是被Hadoop 应用程序所使用的主要的分布式存储方
式。一个HDFS 集群主要包括一个NameNode 和若干个DataNode 。NameNode 的主要作用主要
功能是管理HDFS 文件系统的元数据(metadata),DataNode 的主要作用是存储实际的数据。HDFS
和现存的一些分布式文件系统有很多相似之处,但是和传统的分布式文件系统的区别也是明显的。
HDFS 适合被处理大量数据的应用程序所使用,HDFS 是高容错性的,可以部署在低成本的硬件
之上。HDFS 放开了一些POSIX 的需求去实现流式地方位文件数据,HDFS 开始是作为为开源的
Apache 项目Nutch 网络搜索引擎项目的基础结构而创建。HDFS 目前是Apache Hadoop 项目下的
一个子项目。
2. 架构
在介绍HDFS 的架构之前,有必要先了解一下HDFS 的设计思想。HDFS 是基于一下的一些
假定和目标进行设计的:
1) 硬件故障
硬件故障是很正常的,而不是异常。整个 HDFS 系统可能由数百或数千个存储着文件数据
片段的服务器组成。实际上它里面有非常巨大的组成部分,每一个组成部分都会频繁地出现故障,
这就意味着 HDFS 里的一些组成部分总是失效的,因此,故障检测和自动快速恢复是 HDFS 的
一个核心结构目标。
2) 流式数据访问
运行在 HDFS 之上的应用程序必须流式地方式访问他们的数据集,这些应用程序和典型的
运行在常规的文件系统之上的常规程序有所区别。HDFS 是设计成适合批量处理的,而不是用户
交互式的。重点是在数据吞吐量,而不是数据访问的反应时间,POSIX 规定的很多硬性的需求
对很多应用不是必须的,去掉POSIX 的很多关键地方的语义可以获得更好的数据吞吐率。
3) 大量数据集
运行在HDFS 之上的程序有很大量的数据集。着意味着典型的HDFS 文件是GB 到TB 的大
小,所以HDFS 很好地支持大文件。HDFS 应该能提供很高的聚合数据带宽,典型的一个集群可
以支持数百个节点。在一个集群上应该能支持数以百万的文件。
4) 简单的一致性模型
大部分的HDFS 程序对文件操作需要的是一次写入,多次读取。一个文件一旦创建、写入、
关闭之后就不需要修改了。这个假定简单化了数据一致的问题和高吞吐量的数据访问。
Map-Reduce 程序或者网络爬虫程序都是非常完美的适合这个模型。此外,在已有文件中进行附
加写入也是HDFS 的一个未来的计划。
5) 移动计算比移动数据更廉价
如果应用程序中计算所需要的数据离它很近,那么计算将会更加高效。如果计算中用到的数
据集非常的巨大,更加是这样。因为它将减少网络拥塞并且提高系统的吞吐量。这个假设也就意
味着,通常,把计算转移到离数据近的位置比把数据转移到计算进行的地方更好。HDFS 提供了
转移应用程序到离数据近的位置的接口。
6) 轻便的访问异构的软硬件平台
HDFS 被设计成可以非常简单地从一个平台转移到另一个平台。这促使了HDFS 应用到越来
越多的大数据集的应用程序中。
基于以上的一些假定和设计目标,HDFS 被这集成master/slave 结构,其设计架构图如下:
图1 HDFS 架构图
在以上的架构图中,HDFS 中重要的两个组成部分是NameNode 和DataNodes,一个HDFS
集群包含一个唯一的NameNode ,也就对应着master 服务器,主要负责管理文件系统的命名空间,
以及对客户端访问文件进行规范和控制。HDFS 集群中可以有大量的DataNodes,通常,集群中
一个节点对应一个 DataNode ,其主要作用在运行的节点上存储集群中的数据。HDFS 提供了一
个文件系统的命名空间允许用户的数据存储在文件中。在内部,一个文件被分割成一个或多个存
储块,这些块分布在DataNodes 集上。NameNode 执行文件系统命名空间的的操作,比如打开、
关闭、重命名文件或目录等。同时,NameNode 也管理着存储块和DataNodes 之间的映射关系。
DataN
您可能关注的文档
- f_CaO对溷凝土结构质量影响及其检测方法.pdf
- f斗图的绘制与不对称检验在Stata中的实现.pdf
- f杆成型工艺的改进及其机械性能的提高.pdf
- f土壤重金属污染评价的模煳数学模型的改进及应用.pdf
- f应用于FRP溷凝土结构振动检测的实验研究.pdf
- F级燃气轮机转子加工工艺研究.pdf
- f溶血栓治疗的实验室监测项目合理性选择与分析.pdf
- F级快干绝缘漆的研制及应用.pdf
- GaAs薄膜电沉积机理的初探.pdf
- f结合刚玉碳化硅质浇注料的组成与性能.pdf
- 2025年浙江丽水龙泉产业创新研究院高层次人才引进笔试备考题库及参考答案详解一套.docx
- 2025年浙江康复医疗中心(浙江中医药大学附属康复医院)特岗招聘笔试高频难、易错点备考题库及参考答案.docx
- 2025年浙江宁波市镇海区招聘事业编制教师69人(中学岗位)笔试高频难、易错点备考题库含答案详解.docx
- 2025年浙江嘉兴海宁市事业单位招聘49人笔试高频难、易错点备考题库含答案详解.docx
- 2025年浙江湖州德清县部分事业单位招聘50人笔试高频难、易错点备考题库及参考答案详解.docx
- 2025年泉州市公安局台商投资区分局招聘第一期警务辅助人员笔试高频难、易错点备考题库及答案详解一套.docx
- 2025年江西省省直事业单位招聘1038人笔试高频难、易错点备考题库及参考答案详解1套.docx
- 2025年湖南省社会科学院(湖南省人民政府发展研究中心)招聘高层次人才笔试高频难、易错点备考题库参考.docx
- 2025年江西南昌市就创人力资源服务中心招聘中小学教师41人笔试备考题库及参考答案详解1套.docx
- 2025年浙江医院招聘84人笔试高频难、易错点备考题库及参考答案详解1套.docx
文档评论(0)