揭秘Hadoop生态圈.docVIP

下载本文档

10
0
约2.35千字
约 4页
2017-03-02 发布于北京
举报
版权申诉

揭秘Hadoop生态圈.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

揭秘Hadoop生态圈.doc

揭秘Hadoop生态圈　　【摘要】Hadoop的两大核心是HDFS和YARN。Hadoop是一个软件框架，能够对海量数据进行分布式处理。Hadoop的特点是可靠、高效、可伸缩。　　【关键词】Hadoop；HDFS；YARN 　　0 引言　　从诞生至今，Hadoop已经发展成为一个庞大的与大数据相关的软件生态系统。本文收集整理了跟Hadoop相关的Apache下的开源项目，主要是对 Hadoop生态系统有个初步的认识。那么Hadoop生态系统都包括哪些内容呢？　　Hadoop生态系统主要包括分布式文件管理系统HDFS，分布式计算框架MapReduce，分布式协作服务Zookeeper，实时分布式数据库Hbase，数据仓库Hive，数据流处理Pig，数据挖掘Mahout，日志收集工具Flume，数据库ETL工具Sqoop，安装、部署、配置和管理工具Ambari。　　Ambari（安装、部署、配置和管理工具）　　Zookeeper （分布式协作服务）　　Hive（数据仓库）　　Pig（数据流处理）　　Mahout（数据挖掘库）　　Flume（日志收集工具）　　Hbase（实时分布式数据库）　　MapReduce（分布式计算框架）　　Sqoop（数据库ETL工具）　　HDFS（分布式文件系统）　　1 HDFS（Hadoop分布式文件系统）　　HDFS全称为Hadoop Distributed File System，这个概念源自于Google发表于2003年10月的GFS论文，HDFS是GFS克隆版，Hadoop和 HDFS 都是从GFS中派生的。　　HDFS是一个高度容错的系统，不仅可以在低成本的通用硬件上运行，还能检测和应对硬件故障，是Hadoop数据存储管理的基础。　　通过流式数据访问，HDFS提供高吞吐量应用程序数据访问功能，为跨多个机器存储大型文件提供了一种解决方案，适合带有大型数据集的应用程序。　　NameNode：是一个Master节点。在Hadoop 1.0中，NameNode是HDFS 集群的一个单点故障。Hadoop 2.0出现后，HDFS利用Zookeeper解决了这个问题。NameNode的主要功能是处理客户端请求，管理HDFS的名称空间和数据块映射信息以及配置副本策略。　　Secondary NameNode：Secondary NameNode并非NameNode必备。它只是用来辅助NameNode，分担其工作量的，在某些紧急情况下，可辅助恢复NameNode。　　DataNode：DataNode是一个 Slave节点，用来存储数据，汇报存储信息给NameNode。　　Client：Client的作用是切分文件和访问HDFS。它与NameNode交互时，能够获取文件位置信息，与DataNode交互，能够读取和写入数据。　　2 Mapreduce（分布式计算框架）　　MapReduce是一种是使用集群的并行、分布式算法处理大数据集的可编程计算模型，用以解决海量数据的计算问题。在大型集群中能够起到简化数据处理的作用。MapReduce遵循YARN的框架协议，能够在YARN上可以运行。　　在MapReduce中，Map负责对数据集上的独立元素进行指定操作，形成中间结果键值对。Reduce负责对中间结果中相同“键”的所有“值”进行规约，得到最终结果。MapReduce这样的功能划分，非常适合在分布式并行环境里进行数据处理。　　JobTracker：唯一一个Master节点，管理所有作业和错误处理，将任务分解成一系列子任务，并分派给TaskTracker。　　TaskTracker：Slave节点，向JobTracker汇报任务状态。　　Map Task：解析每条数据记录，传递给用户编写的map并执行，将输出结果写入本地磁盘。　　Reducer Task：从Map Task的执行结果中，远程读取输入数据，对数据进行排序后分组传递给用户编写的reduce函数执行。　　3 Hbase（分布式列存数据库）　　HBase是一个构建在HDFS上的分布式列存储系统。HBase利用MapReduce来处理海量数据，将数据存储和并行计算完美地结合在一起。Bigtable使用Chubby服务，而HBase利用Zookeeper作为对应。和传统关系数据库不同，HBase采用了BigTable的数据模型，增强的稀疏排序映射表，是一个针对结构化数据的动态模式数据库，具有可伸缩、高可靠、高性能、分布式和面向列的特性。从逻辑上讲，HBase将数据按照表、行和列进行存储。与hadoop一样，Hbase目标主要依