北京理工大学计算机学院樊博.PPTVIP

  • 8
  • 0
  • 约4.26千字
  • 约 18页
  • 2019-01-28 发布于天津
  • 举报
北京理工大学计算机学院樊博.PPT

北京理工大学 计算机学院 樊博 Hadoop简介 Hadoop概述 HDFS简介 Map-Reduce简介 Hadoop应用实例 提纲 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力来实现高速运算和存储。 在Hadoop中实现了Google的GFS和Map-Reduce算法,使Hadoop成为了一个分布式的计算平台。 需要注意的是,Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。 Hadoop概述 作为系统的底层,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了POSIX的要求,这样可以流的形式访问(streaming access)文件系统中的数据。 Hadoop概述 Hadoop Distributed File System (Hadoop分布式文件系统) 是一个master/slave的结构,就通常的部署来说,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。 HDFS简介 HDFS简介 在上图中,Namenode,Datanode,Client之间的通信都是建立在TCP/IP的基础之上的。当Client要执行一个写入的操作的时候,命令不是马上就发送到Namenode,Client首先在本机上临时文件夹中缓存这些数据,当临时文件夹中的数据块达到了设定的Block的值(默认是64M)时,Client便会通知Namenode,Namenode便响应Client的RPC请求,将文件名插入文件系统层次中并且在Datanode中找到一块存放该数据的block,同时将该Datanode及对应的数据块信息告诉Client,Client便这些本地临时文件夹中的数据块写入指定的数据节点。(针对于大文件) HDFS简介 HDFS采取了副本策略,其目的是为了提高系统的可靠性,可用性。HDFS的副本放置策略是三个副本,一个放在本节点上,一个放在同一机架中的另一个节点上,还有一个副本放在另一个不同的机架中的一个节点上。 还有一点很重要的是,HDFS支持传统的层次文件组织结构,同现有的一些文件系统在操作上很类似,比如你可以创建和删除一个文件,把一个文件从一个目录移到另一个目录,重命名等等操作。Namenode管理着整个分布式文件系统,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制。 HDFS简介 可见,HDFS 针对性很强,其主要目的是支持以流的形式访问写入的大型文件。如果客户机想将文件写到 HDFS 上,首先需要将该文件缓存到本地的临时存储。如果缓存的数据大于所需的 HDFS 块大小,创建文件的请求将发送给 Namenode。Namenode 将以 Datanode 标识和目标块响应客户机。同时也通知将要保存文件块副本的 Datanode。当客户机开始将临时文件发送给第一个 Datanode 时,将立即通过管道方式将块内容转发给副本 Datanode。 客户机也负责创建保存在相同 HDFS 名称空间中的校验和(checksum)文件。在最后的文件块发送之后,Namenode 将文件创建提交到它的持久化元数据存储(在 EditLog 和 FsImage 文件)。 HDFS简介 2:单线程hadoop的文件存入 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path src = new Path(F:/pic/2003-zhujiajian); Path dst = new Path(/user/zxf/image); long start = System.currentTimeMillis(); fs.copyFromLocalFile(src, dst); long end = System.currentTimeMillis(); System.out.println(time cost= + (end-start)); 108037206 bytes, 303

文档评论(0)

1亿VIP精品文档

相关文档