浅谈大数据下的Hadoop分布式架构.docVIP

下载本文档

21
0
约3.53千字
约 3页
2016-07-04 发布于河北
举报
版权申诉

浅谈大数据下的Hadoop分布式架构.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈大数据下的Hadoop分布式架构

浅谈大数据下的Hadoop分布式架构　　摘要：随着信息技术的迅猛发展，各行业产生的数据呈爆炸性的增长，而这些数据已远超过了传统的计算技术与信息系统的处理能力。实现大数据的研究，以有效的信息技术的手段和计算方法，获取、处理和分析各行业的大数据发现潜在的价值意义重大。该文就主要就是针对大数据下的Hadoop分布式架构的讨论。中国论文网 /8/view-7241539.htm 　　关键词：大数据；Hadoop分布式架构；HDFS分布式文件系统；MapReduce并行计算框架　　中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2016）01-0007-02 　　1 大数据的相关介绍　　1.1 大数据的概念　　大数据（Big Data），或称巨量资料，指的是所涉及的资料量巨大到无法通过目前主流的软件工具在合理时间内达到撷取、管理、处理，并整理成为帮助企业经营决策更积极目的的资讯。大数据不同于集中在一个磁盘阵列中的海量数据集合。大数据是由分布存储在集群节点中多个单节点的磁盘空间中能被进行分布式处理的数据构成的一个数据总体。大数据的规模可以随着节点数量的不断增加而不断扩大。大数据的价值在于基于人们历史产生的各类数据可以产生出新的有价值的信息。　　1.2 大数据的特点　　1）大体量（Volume）：大数据是指数据量非常庞大，其庞大体现在数据存储量大、计算量大。　　2）时效性（Velocity）：大数据是指在数据不断增长，增长速度快，数据在存储、传输时的处理速度快。　　3）多样性（Variety）大数据可以结构化的表单，半结构的文本、视频、图像、语音以及非结构化的文件。　　4）大价值（Value）：在大量的数据中有价信息是很少的，但这些有价信息是通过分析挖掘才能够发现的。虽然价值密度低，但其商业价值高。　　2 Hadoop分布式系统的介绍　　2.1 Hadoop系统　　Hadoop是Apache基金会下的一个能够对大量数据进行分布式处理的软件框架，具有可靠、高效、可伸缩的数据处理特点。硬件角度看，Hadoop系统是应用于普通的商用服务器集群的分布式存储和并行计算系统。软件角度看，Hadoop系统包括分布式存存储和并行计算两个部分。如图1所示：系统的架构图。　　图1 Hadoop系统分布式存储与并行计算构架　　2.2 HDFS分布式文件系统　　（1）HDFS系统逻辑架构　　HDFS是一个多层次的架构，基于主从模式进行管理，采用远程过程通讯即RPC来实现层间的交互。　　HDFS由客户端层、名称节点层和数据节点层三个层次构成。　　客户端层通过HDFS提供一个文件系统接口，通过名称节点和数据节点的交互来读写HDFS的文件系统。客户端首先从名称节点（NameNode）上获得文件数据块的位置列表，然后直接从数据节点上读取文件数据，NameNode不参与文件的传输。　　名称节点层主要由名称节点服务器和二级名称节点构成。NameNode执行文件系统的命名操作。二级名称节点Secondary NameNode主要辅助NameNode处理镜像文件和事务日志，他会定期从NameNode上复制镜像文件和事务日志到临时目录，合并生成新的日志文件后重新上传到NameNode上。　　数据节点层主要是由多个数据节点构成。DataNode负责处理客户的读/写请求，依照NameNode的命令，来执行数据块的创建、复制、删除等工作。　　（2）HDFS系统物理架构　　HDFS的典型部署方式是在两个专门的服务器上运行NameNode和Secondary NameNode，再将DataNode安装在以机架位单位的多组机架的机器上。一个集群只有一个NameNode。　　2.3 MapReduce并行计算框架　　MapReduce是一种分布式软件编程框架，其运行依赖于分布式作业系统。分布式作业系统也是主从模式的，它由一个作业节点（JobTracker）和多个任务节点（TaskTracker）构成。MapReduce向作业端发出一个数据处理请求，作业主节点接收到请求后，会将MapReduce的程序代码经网络传输到多个作业节点，由多个作业节点调用MapReduce程序对本地的数据进行处理。　　（1）设计思路　　MapReduce编程模式设计遵循“分而治之、移动逻辑、屏蔽底层、处理定制”的设计思想。　　分而治之是将大规模的数据分拆成N个数据块部分，由一个主节点将MapReduce函数分发到各个数据块的分支节点上去运行，然后通过合并各分支节点的结果来得到最终结果。MapReduce并行计算模型如图2所示。　　　　图2 MapReduce并行编程模型　　2）