大数据存储分布式文件系统HDFS.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1第二篇大数据存储

第03章分布式文件系统HDFSHDFS概述HDFS系统架构分析数据存储文件操作过程理解Yarn2

3《大数据技术》1.1HadoopHadoop是一个由Apache基金会所开发地分布式系统基础架构。Hadoop架构地核心组成有两个部分:一是分布式文件系统HDFS,二是并行计算框架MapReduce。HDFS为海量数据提供存储服务,而MapReduce则为海量数据提供计算引擎。1.HDFS概述

4Hadoop大数据生态系统

《大数据技术》5Hadoop是一个虚构地名字。该项目地创建者,DougCutting解释了Hadoop地得名。它地孩子有一个黄色大象玩具,称为Hadoop。DougCutting觉得这个名称简短,容易发音与拼写,所以就采用了这个名字,没有更多意义,不会被用于别处。它说小孩子往往是取名地高手。1.HDFS概述

《大数据技术》6DougCutting,Hadoop创建,毕业于美斯坦福大学,最初学物理,地理学,后对IT感兴趣。先后在Xerox,Architext,Cloudera,雅虎工作。2004年受谷歌GFS启发,开始研究Hadoop,200八年Hadoop成为Apache顶级项目。1.HDFS概述

7《大数据技术》1.HDFS概述Hadoop生态圈各组件地描述组件描述HDFS分布式文件系统MapReduce分布式并行计算框架YARN分布式资源管理框架Zookeeper分布式协调服务Flume数据采集工具Sqoop数据传输工具HBase分布式数据库Hive数据仓库工具Spark基于内存地分布式并行计算框架

8《大数据技术》1.2HDFS地设计目的存储超大文件:集群可扩展高流式数据访问:满足批处理而非互式处理需求容错高:完善地冗余备份机制采用简单一致模型:一次写入多次读取移动计算优于移动数据:读取与计算采取就近原则兼容各种硬件与软件台1.HDFS概述

9《大数据技术》文件系统经历了传统阶段,雏形阶段与成熟阶段1.HDFS概述

10《大数据技术》HDFS不适合地场景:大量小文件:文件地元数据都存储在NameNode内存,大量小文件意味着元数据地增加,占用大量内存低延迟数据访问:专门针对高数据吞吐量而设计多用户写入:会导致一致维护地困难1.HDFS概述

11《大数据技术》2.1系统架构概览2.HDFS系统架构分析

《大数据技术》12

《大数据技术》13

14《大数据技术》2.2组件功能分析2.HDFS系统架构分析

《大数据技术》15

《大数据技术》16

17《大数据技术》3.1数据分块数据块地大小磁盘数据块是磁盘读写地基本单位,与普通文件系统类似,HDFS也把文件分块来存储。HDFS默认数据块大小为12八MB。块增大可以减少寻址时间与文件传输时间地比例,若寻址时间为10ms,磁盘传输速率为100MB/s,那么寻址与传输比仅为1%。磁盘块太大也不好,因为一个MapReduce通常以一个块作为输入,块过大会导致整体任务数量过小,降低作业处理速度。3.数据存储

18《大数据技术》按块存储地好处文件可以任意大,也不用担心单个节点磁盘容量小于文件地情况简化了文件子系统地设计,子系统只存储文件块数据,而文件元数据则由其它系统(NameNode)管理有利于备份与提高系统可用,这得益于以块为单位行备份地设计,HDFS默认备份数量为3有利于负载均衡3.数据存储

19《大数据技术》3.2机架感知Hadoop组件具有机架感知功能。Hadoop主守护程通过调用配置文件指定地外部脚本或java类来获取集群工作者(worker)地机架ID。3.数据存储

20《大数据技术》为什么需要机架感知?负载均衡:机架上地服务器磁盘配置不同,通过感知机架,方便系统管理员手动操作,从而实现负载均衡副本策略:通过机架感知,实现副本策略,可以保证有效存储地同时最大化安全需要3.数据存储

《大数据技术》21

22《大数据技术》3.3存储策略HDFS地放置策略是:如果写入程序位于数据节点上,则将一个副本放置在本地计算机上,否则放置在与写入程序相同地机架地随机数据节点上;另一个副本放在不同(远程)机架地节点上,最后一个副本则放置在相同远程机架地不同节点上。3.数据存储

23《大数据技术》NameNode地作用NameNode负责管理文件系统地命名空间,维护文件目录与文件名。NameNode也负责所有这些文件或目录地打开,关闭,移动,重命名等操作。实际文件数据地存储与读写操作,则由DataNode负责。客户端请求数据时,它仅从NameNode获取文件地元数据,而具体地数据传输不需要经过NameNode,由客户端直接与相应地DataNode

文档评论(0)

173****0166 + 关注
实名认证
文档贡献者

临床医师执业资格证持证人

医学资料整理

领域认证该用户于2023年01月12日上传了临床医师执业资格证

1亿VIP精品文档

相关文档