大数据技术原理与应用课件.pptVIP

  • 9
  • 0
  • 约1.4万字
  • 约 52页
  • 2019-06-05 发布于湖北
  • 举报
读取文件流程 1、使用HDFS Client,向远程的Namenode发起RPC请求; 2、Namenode会视情况返回文件的部分或者全部block列表,对于每个block,Namenode都会返回有该block拷贝的datanode地址; 3-4、HDFS Client 选取离客户端最接近的datanode来读取block; 5、当读完列表的block后,如果文件读取还没有结束,客户端开发库会继续向Namenode获取下一批的block列表。 6、读取完当前block的数据后,关闭与当前的datanode连接,并为读取下一个block寻找最佳的datanode; 注:读取完一个block都会进行checksum验证,如果读取datanode时出现错误,客户端会通知Namenode,然后再从下一个拥有该block拷贝的datanode继续读。 。 写入文件流程 。 HDFS Client 向远程的Namenode发起RPC请求; Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常; 当客户端开始写入文件的时候,开发库会将文件切分成多个packets,并在内部以data queue的形式管理这些packets,并向Namenode申请新的blocks,获取用来存储replicas的合适的datanodes列表,列表的大小根据在Namenode中对replication的设置而定。 开始以pipeline(管道)的形式将packet写入所有的replicas中。开发库把packet以流的方式写入第一个datanode,该datanode把该packet存储之后,再将其传递给在此pipeline中的下一个datanode,直到最后一个datanode,这种写数据的方式呈流水线的形式。 最后一个datanode成功存储之后会返回一个ack packet,在pipeline里传递至客户端,在客户端的开发库内部维护着ack queue,成功收到datanode返回的ack packet后会从ack queue移除相应的packet。 如果传输过程中,有某个datanode出现了故障,那么当前的pipeline会被关闭,出现故障的datanode会从当前的pipeline中移除,剩余的block会继续剩下的datanode中继续以pipeline的形式传输,同时Namenode会分配一个新的datanode,保持replicas设定的数量。 。 HDFS不擅长的 多数据中心情况 低延迟数据访问需求(10ms) 大量的小文件 多个数据写入者 。 Hadoop MapReduce 。 Hadoop MapReduce 是什么? 一个在大型计算机集群上快速分发计算的编程模型 一个组织执行计算的操作框架 其中一个开源实现即Hadoop MapReduce 。 MapReduce并行处理的基本过程 Cite from Dean and Ghemawat (OSDI 2004) 1.有一个待处理的大数据,被划分为大小相同的数据块(如64MB),及与此相应的用户作业程序 2.系统中有一个负责调度的主节点(Master),以及数据Map和Reduce工作节点(Worker) 。 MapReduce并行处理的基本过程 Cite from Dean and Ghemawat (OSDI 2004) 3.用户作业程序提交给主节点 4.主节点为作业程序寻找和配备可用的Map节点,并将程序传送给map节点 5.主节点也为作业程序寻找和配备可用的Reduce节点,并将程序传送给Reduce节点 。 MapReduce并行处理的基本过程 Cite from Dean and Ghemawat (OSDI 2004) 6.主节点启动每个Map节点执行程序,每个map节点尽可能读取本地或本机架的数据进行计算 7.每个Map节点处理读取的数据块,并做一些数据整理工作(combining, sorting等)并将中间结果存放在本地;同时通知主节点计算任务完成并告知中间结果数据存储位置 。 MapReduce并行处理的基本过程 Cite from Dean and Ghemawat (OSDI 2004) 8.主节点等所有Map节点计算完成后,开始启动Reduce节点运行;Reduce节点从主节点所掌握的中间结果数据位置信息,远程读取这些数据 9.Reduce节点计算结果汇总输出到一个结果文件即获得整个处理结果 。 MapReduce并行处理的基本过程 Cite from Dean and Ghemawat (OSDI 2004) 完整计算过程 。 MR简例(Word Count) 。 H

文档评论(0)

1亿VIP精品文档

相关文档