基于Hadoo MapReduce模型的数据分析平台研究设计.docxVIP

下载本文档

13
0
约5.58千字
约 9页
2016-09-11 发布于贵州
举报
版权申诉

基于Hadoo MapReduce模型的数据分析平台研究设计.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop MapReduce模型的数据分析平台研究设计?大数据?2015-04-28 1:03:01?Hadoop?评论(0)前言拖了5天终于看完了两篇论文，对相关数据分析平台搭建技术也有了进一步的了解。对自己这几天的笔记做了一个整理，既是为了方便自己以后查看，也是为以后的实际平台搭建建立依据。其实感觉还是挺苦逼的，这大过年的亲戚都坐在旁边包饺子，而我……还在为自己的拖延症买单。本笔记主要记录以下两个方面：Hadoop MapReduce与Hive技术研究数据分析平台框架设计与环境配置Google三大核心技术：GFS[1]、Mapreduce、Bigtable[2][1]. Google文件系统（Google File System，缩写为GFS或GoogleFS）是Google公司为了满足其需求而开发的基于Linux的专有分布式文件系统。[2]. BigTable是一种压缩的、高性能的、高可扩展性的，基于Google文件系统（Google File System，GFS）的数据存储系统，不是传统的关系型数据库，用于存储大规模结构化数据，适用于云计算。?Hadoop MapReduce与Hive技术研究一、Hadoop框架工作机制Hadoop框架定义：Hadoop分布式文件系统（HDFS）和Mapreduce实现。并行程序设计方法中最重要的一种结构就是主从结构，而Hadoop则属于该架构。HDFS架构：HDFS采用Master/Slave架构，也是主从模式的结构。一个HDFS集群由一个NameNode节点和一组DataNode节点（通常也作为计算节点，若干个）组成。NameNode定义：NameNode是一个中心服务器，负责管理文件系统的名字空间（NameSpace）、数据节点和数据块之间的映射关系以及客户端对文件的访问。它会将包含文件信息、文件相对应的文件块信息以及文件块在DataNode的信息等文件系统的缘数据存储在内存中，是整个集群的主节点。DataNode定义：集群系统中，一个节点上通常只运行一个DataNode，负责管理他所在节点上的数据存储，并负责处理文件系统客户端的读写请求，在NameNode的统一调度下进行数据块的创建、删除和复制。集群中的数掘节点管理存储的数据，会将块的元数据存储在本地，并且会将全部存在的块信息周期性的发给NameNode。在节点中操纵数据：当要向集群中的某一节点写入数据：NameNode负责分配数据块，客户端把数据写入到对应节点中；当要从集群中的某一节点读取数据：客户端在找到这一节点之前需要先获取到数据块的映射关系（关系由Namenode提供），之后从节点上读取数据。为了应对HDFS大量节点构成的特殊分布式数据结构的特征，所以HDFS架构最重要的就是要有错误故障检测以及故陣的快速恢复机制，这是通过数据节点和名字节点之间的一种称为心跳的机制来实现的，他能够使HDFS系统任意增删节点。同时，分布式系统的采用和MapReduce模型的实现使得Hadoop框架具有高容错性以及对数据读写的高吞吐率，能自动处理失败节点。HDFS两大特性：高容错系统：HDFS增加了数据的冗余性。即每一个文件的所有数掘块都将会有副本。HDFS釆用一种机架感知的策略，这种策略需在经验积累的基础上调优。经过机架感知，NameNode可以知道DataNode所在位置的机架。这样的策略可使副本均匀分布在集群中的节点上，对于节点故障时的负载均衡有利。高存取数据性能：通过客户端临时缓存在本地的数据减少对于网络带宽的依赖程度；读取副本时遵循就近原则；采用流水线复制技术提高性能（第一个接收数据的数据节点在把数据写到本地后会依次接着把数据传到存有数据副本的节点，直到所有的存对副本的节点，在这个过程中每个节点都是一边接受一边传送，减少了备份的时间）；Hadoop集群系统架构示意图Client：获取分布式文件系统文件的应用程序。Master：负责NameNode和JobTracker的工作，其中JobTracker负责应用程序的启动、跟踪和调度各个Slave任务的执行，各个Tracker中TaskTracker管理本地数据处理与结果，并与JobTracker通信。二、MapReduce（映射-归并算法）分布式并行计算编程模型该主从框架结构可以把一个作业任务分解成若干个细粒度的子任务，根据节点空闲状况来调度和快速的处理子任务，最后通过一定的规则合并生成最终的结果。有一个主节点和若干个从节点，其中主节点的作用是负责任务分配和资源的调度；而从节点则主要是负责作业的执行处理。基于此框架的程序能在通配置的机器上实现并行化的处理。MapReduce借用函数式编程的思想，通过把海量数据集的常见操作抽象为Map（映射过程）和Reduce（聚集过程）两种