大数据技术实施规范——系统运维规范_Hadoop分册.docx

大数据技术实施规范——系统运维规范_Hadoop分册.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文件编号:HD-DEV-0101建立日期:×××××××××××当前版本:V1.0.2文件状态:试行发布大数据技术实施规范系统运维规范(v1.0.2)北京东方国信科技股份有限公司更改记1.0版成稿1.0.1稿。修改项修改内容第6章,第4节新增Mysql备份修改时间:2014-10-13审阅人: 张宇1.0.1稿。修改项修改内容第2章,第2节,第8小节新增Spark组件描述修改时间:2014-10-20审阅人: 张宇龙第4章,第2节,第7小节第3节,第6小节新增Spark安装部署修改时间:2014-10-20审阅人: 张宇1.0.2稿。修改项修改内容第3章,第1节,第1小节第2小节新增网卡速率检测新增网卡绑定方法修改时间:2014-12-2审阅人: 张宇龙第5章,第1节,第5小节新增历史日志清空修改时间:2014-12-2审阅人: 张宇龙产品概述产品介绍组件描述Zookeeperzookeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper能够用来leader选举,配置信息维护等.在一个分布式的环境中,我们需要一个Master实例或存储一些配置信息,确保文件写入的一致性等。(选举流程)zookeeper使用了一个类似文件系统的树结构,数据可以挂在某个节点上,可以对这个节点进行删改。由于zookeeper集群作为一个整体对提供服务,所以对于任何节点上的修改都是对集群整体进行修改,也可以说是对集群内所有的节点同时进行修改。最终一致性:client不论连接到哪个Server,展示给它都是同一个视图。HDFSHadoop Distributed File System,简称HDFS。分布式文件系统,设计之初用来存储大文件,将大文件分散成很多块存储至多台服务器。HDFS是整个Hadoop生态圈的基础。HDFS的服务角色分为Namenode(元数据节点)和Datanode(数据节点)。Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系。Datanode:负责存储数据。Block(数据库):大文件的存储会被分割为多个block进行存储。默认为64MB,每一个block会在多个datanode上存储多份副本,默认为3份,多个副本避免硬件故障带来的文件丢失。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS结构图:HDFS读流程结构图HDFS写流程结构图MapreduceMapreduce是一种适用于大数据并行计算的编程模型,用于作业调度。第一代计算架构。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。MapReduce执行流程图MapReduce实例流程图Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。JobTracker是一个后台服务进程,启动之后,会一直监听并接收来自各个TaskTracker发送的心跳信息,包括资源使用情况和任务运行情况等信息。TaskTracker是JobTracker和Task之间的桥梁:一方面,从JobTracker接收并执行各种命令:运行任务、提交任务、杀死任务 等;另一方面,将本地节点上各个任务的状态通过心跳周期性汇报给JobTracker。TaskTracker与JobTracker和Task之间采用 了RPC协议进行通信。JobTracker ?对应于 NameNode。TaskTracker 对应于 DataNode。DataNode 和NameNode 是针对数据存放来而言的。JobTracker和TaskTracker是对于MapReduce执行而言的。MapReduce架构图HDFS作为存储,MapReduce作为计算架构,是Hadoop1.0生态基础。Hadoop1.0生态图YarnYarn作为第二代计算架构,用ResourceManager将

文档评论(0)

___________ + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档