Hadoop-HDFS基础篇.pptxVIP

  • 5
  • 0
  • 约1.84千字
  • 约 20页
  • 2016-12-25 发布于重庆
  • 举报
Hadoop Basics-HDFSJohnson JiangMay. 2015 什么是Hadoop?? Hadoop是–?–?–?–?Apache开源软件基金会开发的运行于大规模普通服务器上的用于大数据存储、计算、分析的分布式存储系统和分布式运算框架?? Hadoop由两个部分组成 –? 分布式文件系统HDFS –? 分布式运算框架MapReduce?? Hadoop这个单词是什么意思? –? 它是作者儿子的一个毛绒玩具小象的名字Hadoop版本图Hadoop生态环境HDFS结构内容点击添加文本点击添加文本点击添加文本点击添加文本HDFS主要组件的功能NameNode 存储元数据元数据保存在内存中 保存文件,block ,datanode之间的映射关系 DataNode 存储文件内容文件内容保存在磁盘维护了block id到 datanode本地文件的映射关系文件文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等DataNode在本地文件系统存储文件块数据,以及块数据的校验NameNodeNamenode是一个中心服务器,单一节点,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问文件操作,NameNode负责文件元数据的DataNode负责处理文件内容的读写请求,数据流不经过NameNode,只会询问它跟那个DataNode联系NameNode副本存放在那些DataNode上由NameNode来控制,根据全局情况做出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取时延Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。 NameNode(NN)块存储结构metadate物理存储结构DataNode一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳,则认为该节点不可用。集群运行中可以安全加入和退出一些机器DataNode(DN)保存Block启动DN线程的时候会向NN汇报block信息通过向NN发送心跳保持与其联系(3秒一次),如果NN 10分钟没有收到DN的心跳,则认为其已经lost,并copy其上的block到其它DN 数据损坏(corruption)处理当DN读取block的时候,它会计算checksum;如果计算后的checksum,与block创建时值不一样,说明该block已经损坏。client读取其它DN上的block;NN标记该块已经损坏,然后复制block达到预期设置的文件备份数;DN在其文件创建后三周验证其checksum。HDFS文件权限与Linux文件权限类似r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容如果Linux系统用户zhangsan使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是zhangsanHDFS的权限目的:阻止好人做错事,而不是阻止坏人做坏事。HDFS相信,你告诉我你是谁,我就认为你是谁HDFS写文件HDFS读文件第二名字节点日志合并点击添加文本点击添加文本点击添加文本check point点击添加文本HDFS HA点击添加文本点击添加文本点击添加文本点击添加文本HDFS Federation点击添加文本点击添加文本点击添加文本点击添加文本QuestionMahout 主要目标是创建一些可扩展的机器学习领域的经典算法的实现,帮助开发人员更加方便的快捷的船舰智能应用程序。

文档评论(0)

1亿VIP精品文档

相关文档