大数据技术实施规范——系统运维规范_Hadoop分册.docx

下载文档 降价啦

144
0
约7.78万字
约 97页
2017-08-22 发布于湖北
举报
版权申诉
保障服务

大数据技术实施规范——系统运维规范_Hadoop分册.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文件编号：HD-DEV-0101建立日期：×××××××××××当前版本：V1.0.2文件状态：试行发布大数据技术实施规范系统运维规范(v1.0.2)北京东方国信科技股份有限公司更改记1.0版成稿1.0.1稿。修改项修改内容第6章，第4节新增Mysql备份修改时间：2014-10-13审阅人：张宇1.0.1稿。修改项修改内容第2章，第2节，第8小节新增Spark组件描述修改时间：2014-10-20审阅人：张宇龙第4章，第2节，第7小节第3节，第6小节新增Spark安装部署修改时间：2014-10-20审阅人：张宇1.0.2稿。修改项修改内容第3章，第1节，第1小节第2小节新增网卡速率检测新增网卡绑定方法修改时间：2014-12-2审阅人：张宇龙第5章，第1节，第5小节新增历史日志清空修改时间：2014-12-2审阅人：张宇龙产品概述产品介绍组件描述Zookeeperzookeeper是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper能够用来leader选举,配置信息维护等.在一个分布式的环境中,我们需要一个Master实例或存储一些配置信息，确保文件写入的一致性等。（选举流程）zookeeper使用了一个类似文件系统的树结构，数据可以挂在某个节点上，可以对这个节点进行删改。由于zookeeper集群作为一个整体对提供服务，所以对于任何节点上的修改都是对集群整体进行修改，也可以说是对集群内所有的节点同时进行修改。最终一致性：client不论连接到哪个Server，展示给它都是同一个视图。HDFSHadoop Distributed File System，简称HDFS。分布式文件系统，设计之初用来存储大文件，将大文件分散成很多块存储至多台服务器。HDFS是整个Hadoop生态圈的基础。HDFS的服务角色分为Namenode（元数据节点）和Datanode（数据节点）。Namenode：主要负责存储一些metadata信息，主要包括文件目录、block和文件对应关系，以及block和datanote的对应关系。Datanode：负责存储数据。Block（数据库）：大文件的存储会被分割为多个block进行存储。默认为64MB，每一个block会在多个datanode上存储多份副本，默认为3份，多个副本避免硬件故障带来的文件丢失。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS结构图：HDFS读流程结构图HDFS写流程结构图MapreduceMapreduce是一种适用于大数据并行计算的编程模型，用于作业调度。第一代计算架构。一个MapReduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。MapReduce执行流程图MapReduce实例流程图Hadoop MapReduce采用Master/Slave结构。*Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。*Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。JobTracker是一个后台服务进程，启动之后，会一直监听并接收来自各个TaskTracker发送的心跳信息，包括资源使用情况和任务运行情况等信息。TaskTracker是JobTracker和Task之间的桥梁：一方面，从JobTracker接收并执行各种命令：运行任务、提交任务、杀死任务等；另一方面，将本地节点上各个任务的状态通过心跳周期性汇报给JobTracker。TaskTracker与JobTracker和Task之间采用了RPC协议进行通信。JobTracker ?对应于 NameNode。TaskTracker 对应于 DataNode。DataNode 和NameNode 是针对数据存放来而言的。JobTracker和TaskTracker是对于MapReduce执行而言的。MapReduce架构图HDFS作为存储，MapReduce作为计算架构，是Hadoop1.0生态基础。Hadoop1.0生态图YarnYarn作为第二代计算架构，用ResourceManager将