揭秘Hadoop生态圈.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
揭秘Hadoop生态圈.doc

揭秘Hadoop生态圈   【摘 要】Hadoop的两大核心是HDFS和YARN。Hadoop是一个软件框架,能够对海量数据进行分布式处理。Hadoop的特点是可靠、高效、可伸缩。   【关键词】Hadoop;HDFS;YARN   0 引言   从诞生至今,Hadoop已经发展成为一个庞大的与大数据相关的软件生态系统。本文收集整理了跟Hadoop相关的Apache下的开源项目,主要是对 Hadoop生态系统有个初步的认识。那么Hadoop生态系统都包括哪些内容呢?   Hadoop生态系统主要包括分布式文件管理系统HDFS,分布式计算框架MapReduce,分布式协作服务Zookeeper,实时分布式数据库Hbase,数据仓库Hive,数据流处理Pig,数据挖掘Mahout,日志收集工具Flume,数据库ETL工具Sqoop,安装、部署、配置和管理工具Ambari。   Ambari(安装、部署、配置和管理工具)   Zookeeper (分布式协作服务)   Hive(数据仓库)   Pig(数据流处理)   Mahout(数据挖掘库)   Flume(日志收集工具)   Hbase(实时分布式数据库)   MapReduce(分布式计算框架)   Sqoop(数据库ETL工具)   HDFS(分布式文件系统)   1 HDFS(Hadoop分布式文件系统)   HDFS全称为Hadoop Distributed File System,这个概念源自于Google发表于2003年10月的GFS论文,HDFS是GFS克隆版,Hadoop和 HDFS 都是从GFS中派生的。   HDFS是一个高度容错的系统,不仅可以在低成本的通用硬件上运行,还能检测和应对硬件故障,是Hadoop数据存储管理的基础。   通过流式数据访问,HDFS提供高吞吐量应用程序数据访问功能,为跨多个机器存储大型文件提供了一种解决方案,适合带有大型数据集的应用程序。   NameNode:是一个Master节点。在Hadoop 1.0中,NameNode是HDFS 集群的一个单点故障。Hadoop 2.0出现后,HDFS利用Zookeeper解决了这个问题。NameNode的主要功能是处理客户端请求,管理HDFS的名称空间和数据块映射信息以及配置副本策略。   Secondary NameNode:Secondary NameNode并非NameNode必备。它只是用来辅助NameNode,分担其工作量的,在某些紧急情况下,可辅助恢复NameNode。   DataNode:DataNode是一个 Slave节点,用来存储数据,汇报存储信息给NameNode。   Client:Client的作用是切分文件和访问HDFS。它与NameNode交互时,能够获取文件位置信息,与DataNode交互,能够读取和写入数据。   2 Mapreduce(分布式计算框架)   MapReduce是一种是使用集群的并行、分布式算法处理大数据集的可编程计算模型,用以解决海量数据的计算问题。在大型集群中能够起到简化数据处理的作用。MapReduce遵循YARN的框架协议,能够在YARN上可以运行。   在MapReduce中,Map负责对数据集上的独立元素进行指定操作,形成中间结果键值对。Reduce负责对中间结果中相同“键”的所有“值”进行规约,得到最终结果。MapReduce这样的功能划分,非常适合在分布式并行环境里进行数据处理。   JobTracker:唯一一个Master节点,管理所有作业和错误处理,将任务分解成一系列子任务,并分派给TaskTracker。   TaskTracker:Slave节点,向JobTracker汇报任务状态。   Map Task:解析每条数据记录,传递给用户编写的map并执行,将输出结果写入本地磁盘。   Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序后分组传递给用户编写的reduce函数执行。   3 Hbase(分布式列存数据库)   HBase是一个构建在HDFS上的分布式列存储系统。HBase利用MapReduce来处理海量数据,将数据存储和并行计算完美地结合在一起。Bigtable使用Chubby服务,而HBase利用Zookeeper作为对应。和传统关系数据库不同,HBase采用了BigTable的数据模型,增强的稀疏排序映射表,是一个针对结构化数据的动态模式数据库,具有可伸缩、高可靠、高性能、分布式和面向列的特性。从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档