- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章 Hadoop分布式文件系统;3.1 HDFS的概述;HDFS首先把大数据文件切分成若干个更小的数据块,再把这些数据块分别写入到不同节点之中。
每一个负责保存文件数据的节点,称为数据结点(DataNode)。
当用户需要访问文件时,为了保证能够读取到每一个数据块,HDFS使用集群中的一个节点专门用来保存文件的属性信息,包括文件名、所在目录以及每一个数据块的存储位置等,该节点称为元数据节点(NameNode)。
这样,客户端通过NameNode节点可获得数据块的位置,直接访问DataNode即可获得数据。;1. 数据块
HDFS被设计成支持大文件存储,适用HDFS的是那些需要处理大规模的数据集的应用。这些应用都是只写入数据一次,但却读取一次或多次,并且读取速度应能满足流式读取的需要。HDFS支持文件的“一次写入多次读取”模型。默认的数据块大小是128MB(注意,在Hadoop-2.2版本之前,默认为64MB)。因而,HDFS中的文件总是按照128MB被切分成不同的数据块,每个数据块尽可能地存储于不同的DataNode中。不同于普通文件系统的是,当文件长度小于一个数据块的大小时,该文件是不会占用整个数据块的存储空间。;2. 元数据节点(NameNode)
元数据节点的作用是管理分布文件系统的命名空间,并将所有的文件和目录的元数据保存到Linux本地文件系统的目录(由dfs.namenode.name.dir参数指定)之中,如图所示。;这些信息采用文件命名空间镜像(namespace image)及编辑日志(edit Log)方式进行保存。此外,NameNode节点还保存了一个文件,该文件信息中包括哪些数据块以及这些数据块分布在哪些DataNode之中。但这些信息并不永久存储于本地文件系统,而是在NameNode启动时从各个DataNode收集而成。
;这些信息采用文件命名空间镜像(namespace image)及编辑日志(edit Log)方式进行保存。此外,NameNode节点还保存了一个文件,该文件信息中包括哪些数据块以及这些数据块分布在哪些DataNode之中。但这些信息并不永久存储于本地文件系统,而是在NameNode启动时从各个DataNode收集而成。
;3. 数据节点(DataNode)
数据节点的作用是保存HDFS文件的数据内容。在客户端向HDFS写入文件时,大数据文件将被切分为多个数据块,为了保证HDFS的高吞吐量,NameNode将这些数据块的存储任务指派给不同的DataNode。每一个DataNode在授受任务之后直接从客户端接收数据,经加密后写入到Linux本地系统的相应目录(由dfs.datanode.data.dir参数指定)之中。
;4. 辅助元数据节点(Secondary NameNode)
辅助元数据节点的作用是周期性地将元数据节点的镜像文件fsimage和日志文件edits合并,以防日志文件过大。合并之后,fsimage文件也在辅助元数据节点保存一份,以便在元数据节点中的镜像文件失败时可以恢复。因此,请读者注意,Secondary NameNode并不是NameNode出现问题时的备用节点。
;5. 文件系统的命名空间
HDFS支持传统的文件目录结构。用户或程序可以创建目录,并在目录中存储文件。整个文件系统的命名空间的结构与普通文件系统类似,有根目录、一级目录、二级目录之分。用户可以创建、删除文件,把文件从一个目录移动到另一个目录,或者重命名文件。不同于传统文件系统的是,HDFS目前还不支持用户配额和访问权限控制,也不支持Linux系统中的硬连接和软连接。;HDFS的主要优点有:
(1) 支持超大文件的存储。这里的超大文件通常是指数据规模在TB量级以上的文件。在实际应用中,HDFS已经能用来存储管理PB级的数据。
(2) 支持流式的访问数据。HDFS的设计建立在“一次写入、多次读写”的基础上,它将数据写入严格限制为一次只能写入一个数据,字节总是被附加到一个字节流的末尾,字节流总是以写入顺序先后存储。
(3) 运行于廉价的商用机器集群上。Hadoop设计的目标就是要能在低廉的商用硬件环境中运行,无需在昂贵的高可用性机器上,这样可以降低成本。;3.2 HDFS的体系结构;3.2.2 HDFS的结构模型;3.2.2 HDFS的结构模型;假设客户端Client要读某个文件,首先客户端向NameNode发送数据读操作请求,并通过NameNode获得组成该文件的数据块的位置列表,即知道每个数据块存储在哪些机架(Rack)的哪些DataNode之中;然后客户端直接从这些DataNode读取文件数据。在读数据过程中,NameNode不参与文件的传输。
同样,当客户端需要写入一个文件时,首先向NameN
您可能关注的文档
- 大豆种子的形态结构.ppt
- 大豆种子加工工艺流程图.ppt
- 大气污染第二章.ppt
- 大气污染第六章.ppt
- 大气污染第七章.ppt
- 大气污染第三章.ppt
- 大气污染第四章.ppt
- 大气污染第五章.ppt
- 大气污染第一章.ppt
- 大数据技术基础第八章:Spark概述.pptx
- 东方证券资管显特色,利润弹性高.pdf
- 2026年机械行业年度策略报告:科技擎旗,周期共振.pdf
- 2026年家电行业红利、科技与出海,2026家电投资三主线.pdf
- AI与组合系列报告之四:AI与教育,ToC赛道领跑,突破“不可能三角”.pdf
- 白酒周期底部配置,大众品三大主线掘金.pdf
- “逐鹿”Alpha专题报告——隔夜日内异象因子及领先滞后分析.pdf
- 板块轮动月报:成长价值继续均衡,关注大市值消费股.pdf
- 哈尔斯杯壶行业龙头,制造与品牌协同并进.pdf
- 产业专题:情感需求推动消费升级,经济恢复夯实增长韧性,日臻成熟,国内养宠步入结构升级新阶段.pdf
- 电力设备及新能源行业动力电池及电气系统系列报告:溶剂供需与盈利情况不断向好,EC溶剂潜力更大.pdf
原创力文档


文档评论(0)