Hadoop平台的研究及其改进.docVIP

下载本文档

7
0
约3.64千字
约 7页
2018-08-12 发布于湖北
举报
版权申诉

Hadoop平台的研究及其改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop平台的研究及其改进　　摘要：本文论述了Hadoop的起源与发展，Hadoop是一个在集群上运行大型数据库处理应用程序的开放式源代码框架。它主要包括HDFS和MapReduce两大套件，支持通过编程范例来创建并执行的应用程序，在很多大型网站上都已经得到了应用，可以说是目前最为广泛应用的开源云计算软件平台。但其发展时间较短，研究还不够深入，还有较多值得改进的地方。　　关键词：Hapdoop；HDFS；MapReduce；云计算　　中图分类号：TP311.13 　　1 Hadoop的起源与发展　　随着互联网以及带有各类传感器的移动设备的普及，世界上的数字信息总量呈现爆炸性增长的态势，人类已经进入大数据时代。海量数据的处理任务对现有的硬件系统提出了更高的要求。为增强系统处理数据的能力，可通过两种途径，一是“向上扩展”，即增强单台计算机的硬件配置以提升计算能力；二是“向外扩展”，即用多台计算机构建集群，将数据处理任务按照某种调度方式分配给集群中的计算机。　　向上扩展方案具有明显的局限性：高性能的多核心CPU级及大容量的高速存储器价格昂贵；当CPU核心到达一定数量时，协调各处理器的负载，以及维持数据的一致性都十分困难，系统的稳定性下降；磁盘的读写速度慢，若将数据放入单台机器处理，CPU的计算能力将得不到充分发挥。于是，向外扩展方案成为大数据处理的主流方式。　　相比向上扩展方案，向外扩展方案的复杂度体现在软件系统的设计上，Google在2003年和2004年先后发布了两项关键技术―Google File System（GFS）与Mapreduce，GFS为分布式系统的文件管理提供了统一的用户接口，使得用户能够像操作单台电脑上的数据一样操作分布在集群中的数据；Mapreduce是一种计算模型，用户只需将计算问题分解为映射（map）与归约（reduce）两个阶段，mapreduce系统就能够自动地将计算任务分派到集群中，实现高效的计算。GFS与Mapreduce的综合使用能够实现一个高性能的大数据的平台。　　与此同时，工程师Doug把这两项技术能够应用在他正在开发搜索引擎的项目，用Java语言实现了一个基于GFS和Mapreduce的开源平台，即Hadoop的雏形。Hadoop出现后受到很大的关注，它也从Lucene的一个子项目迅速成为Apache开源基金的顶级项目。　　2006年Yahoo雇佣了Doug并成为Hadoop项目最主要的支持者之一。Yahoo从建立Hadoop研究集群起便不断的刷新着Hadoop的最大节点数，直到超过上万个节点。Hadoop处理数据的能力也在飞速的增加，2009年Yahoo已能在1400个节点的Hadoop集群上于59秒内完成了500GB数据的排序。　　2011年12月，Hadoop正式推出1.0.0版本，标志着其已经初具生产规模。Hadoop的用户包括Facebook、Amazon、淘宝、百度在内的许多大型互联网公司。　　2 Hadoop的组成　　Hadoop发展至今已经拥有了众多的组件，其中最主要的两个是Hadoop Distributed File System（HDFS）和Mapreduce。它们是Google的GFS和Mapreduce的直接实现，是一对互补而截然不同的技术。　　2.1 HDFS。HDFS是一个通过集群扩展来存储超大数据集的分布式文件系统，集群中的每台计算机都是一个节点，HDFS该将数据存储在不同的节点上，并为用户提供统一的文件操作接口，其特征如下：（1）HDFS以64MB为最小存储单位存储数据。这比常用的许多文件系统要大得多。（2）HDFS针对吞吐量而不是延迟进行优化。（3）HDFS针对一次写多次读的情况进行优化。（4）每个存储节点运行着一个DataNode进程来管理该节点上的数据块，而这些进程被集群中唯一的名为NameNode的进程调度。（5）HDFS通过复制而不是物理冗余来应对磁盘故障。每个组成文件的数据块被存放在集群中不同的节点上。NameNode监视着每一个DataNode的报告确保磁盘故障不会导致数据块丢失。如果磁盘故障导致某个数据块无法读取，它会调度另一个存有该数据块的节点来提供数据块。　　HDFS的基本工作方式：用户（client）通过TCP/IP网络访问并操作HDFS，而底层Datanode中数据块的存储与交换，由Namenode自动管理。　　2.2 Mapreduce。Mapreduce是一种大数据处理的解决方案，该方案借用了函数式编程（functional programming）中的map和reduce的思想，将它们组合成一个简约而高效的并行编程范式。Mapreduce处理“键值”数据，即每条