- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
揭秘Hadoop生态圈.doc
揭秘Hadoop生态圈
【摘 要】Hadoop的两大核心是HDFS和YARN。Hadoop是一个软件框架,能够对海量数据进行分布式处理。Hadoop的特点是可靠、高效、可伸缩。
【关键词】Hadoop;HDFS;YARN
0 引言
从诞生至今,Hadoop已经发展成为一个庞大的与大数据相关的软件生态系统。本文收集整理了跟Hadoop相关的Apache下的开源项目,主要是对 Hadoop生态系统有个初步的认识。那么Hadoop生态系统都包括哪些内容呢?
Hadoop生态系统主要包括分布式文件管理系统HDFS,分布式计算框架MapReduce,分布式协作服务Zookeeper,实时分布式数据库Hbase,数据仓库Hive,数据流处理Pig,数据挖掘Mahout,日志收集工具Flume,数据库ETL工具Sqoop,安装、部署、配置和管理工具Ambari。
Ambari(安装、部署、配置和管理工具)
Zookeeper (分布式协作服务)
Hive(数据仓库)
Pig(数据流处理)
Mahout(数据挖掘库)
Flume(日志收集工具)
Hbase(实时分布式数据库)
MapReduce(分布式计算框架)
Sqoop(数据库ETL工具)
HDFS(分布式文件系统)
1 HDFS(Hadoop分布式文件系统)
HDFS全称为Hadoop Distributed File System,这个概念源自于Google发表于2003年10月的GFS论文,HDFS是GFS克隆版,Hadoop和 HDFS 都是从GFS中派生的。
HDFS是一个高度容错的系统,不仅可以在低成本的通用硬件上运行,还能检测和应对硬件故障,是Hadoop数据存储管理的基础。
通过流式数据访问,HDFS提供高吞吐量应用程序数据访问功能,为跨多个机器存储大型文件提供了一种解决方案,适合带有大型数据集的应用程序。
NameNode:是一个Master节点。在Hadoop 1.0中,NameNode是HDFS 集群的一个单点故障。Hadoop 2.0出现后,HDFS利用Zookeeper解决了这个问题。NameNode的主要功能是处理客户端请求,管理HDFS的名称空间和数据块映射信息以及配置副本策略。
Secondary NameNode:Secondary NameNode并非NameNode必备。它只是用来辅助NameNode,分担其工作量的,在某些紧急情况下,可辅助恢复NameNode。
DataNode:DataNode是一个 Slave节点,用来存储数据,汇报存储信息给NameNode。
Client:Client的作用是切分文件和访问HDFS。它与NameNode交互时,能够获取文件位置信息,与DataNode交互,能够读取和写入数据。
2 Mapreduce(分布式计算框架)
MapReduce是一种是使用集群的并行、分布式算法处理大数据集的可编程计算模型,用以解决海量数据的计算问题。在大型集群中能够起到简化数据处理的作用。MapReduce遵循YARN的框架协议,能够在YARN上可以运行。
在MapReduce中,Map负责对数据集上的独立元素进行指定操作,形成中间结果键值对。Reduce负责对中间结果中相同“键”的所有“值”进行规约,得到最终结果。MapReduce这样的功能划分,非常适合在分布式并行环境里进行数据处理。
JobTracker:唯一一个Master节点,管理所有作业和错误处理,将任务分解成一系列子任务,并分派给TaskTracker。
TaskTracker:Slave节点,向JobTracker汇报任务状态。
Map Task:解析每条数据记录,传递给用户编写的map并执行,将输出结果写入本地磁盘。
Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序后分组传递给用户编写的reduce函数执行。
3 Hbase(分布式列存数据库)
HBase是一个构建在HDFS上的分布式列存储系统。HBase利用MapReduce来处理海量数据,将数据存储和并行计算完美地结合在一起。Bigtable使用Chubby服务,而HBase利用Zookeeper作为对应。和传统关系数据库不同,HBase采用了BigTable的数据模型,增强的稀疏排序映射表,是一个针对结构化数据的动态模式数据库,具有可伸缩、高可靠、高性能、分布式和面向列的特性。从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依
您可能关注的文档
- 探讨工程监理的安全责任.doc
- 探讨库鲁斯台草原环境保护及保障措施.doc
- 探讨建筑工程招投标工作规范化发展.doc
- 探讨建筑工程施工新技术.doc
- 探讨建筑电气安装中的质量控制与监理要点.doc
- 探讨建筑电气工程施工技术要点及常见问题.doc
- 探讨当前配电网自动化的运行管理.doc
- 探讨影响熔铝炉热效率的因素.doc
- 探讨径向槽数控车削编程指令的区别.doc
- 探讨我国商业银行的转型策略.doc
- 2025年智能电网柔性直流输电技术在我国西部地区应用前景.docx
- 7.2 弹力-人教版八年级物理下册.pptx
- 2025年智能电网柔性直流输电技术在智能变电站中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化存储中的应用.docx
- 2025年智能电网柔性直流输电技术在新能源并网中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化控制中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化预测中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化服务中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化运维中的应用.docx
- 2025年智能电网柔性直流输电技术智能化保护系统研究.docx
最近下载
- 八年级数学(上)期末试卷 北师大版.doc VIP
- 农业合作社农资集中采购管理流程.docx VIP
- 新解读《DZ_T 0282-2024水文地质调查规范(1_50 000)》最新解读.docx VIP
- 《建筑结构选型》全套课件(共8章完整版).pptx
- 摩登家庭台词剧本第一季第一集中英双语左右对照.pdf VIP
- 招标文件编制培训课件.ppt VIP
- (外研版(三年级起点))小学英语四上 Module 4单元测试(附答案).pdf VIP
- 人教版数学三年级上册总复习.ppt VIP
- Agilent-GCMS培训(完整版330页)教程.ppt
- 2024年外科手术部位感染预防与控制试题.docx
原创力文档


文档评论(0)