Hadoop体系架构概述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Hadoop体系架构概述补充上比较完美的参考资料1

Hadoop体系架构HDFS简介Map/Reduce模型分布式列式数据库Hbase2

Hadoop概述

基于Apache基金会下的一个开源项目,致力于开发一个可靠的、大规模的分布式计算框架用户可采用简单的计算模型在计算机集群下对大规模的数据进行分布式处理设计理念之一是扩展单一的服务器为成千上万机器的集群,且集群中每一个机器同时提供本地计算力和存储力Hadoop框架是在应用层检测和处理硬件失效问题,而不是依赖于硬件自身来维持高可用性。在Hadoop框架集群中硬件失效被认为是一种常态,集群的高可用性服务是建立在整个集群之上的

3

分布式文件系统(HadoopDistributedFileSystem,HDFS)并行计算模型(Map/Reduce)列式数据库(HBase)数据仓库(Hive)数据分析语言(Pig)数据格式转化工具(Sqoop)协同工作系统(Zookeeper)数据序列化系统(Avro)HDFS(HadoopDistributedFileSystem)Map/Reduce(JobScheduling/ExecutionSystem)Hbase(ColumnDatabase)Pig(DataFlow)Hive(SQL)SqoopETLToolsBIReportingRDBMSAvroSerialization)Zookeeper(Coordination)Hadoop整体框架4

Hadoop整体框架下特点Hadoop主要在多节点集群环境下以数据存储为基础最大限度兼容结构化数据格式以数据处理为目的且其数据操作技术多样化5

Hadoop体系架构HDFS简介Map/Reduce模型分布式列式数据库Hbase6

HDFS概述-----基本特征基于商用硬件环境HDFS具有高容错性,并且被部署在廉价的硬件之上HDFS向应用程序提供高的数据吞吐访问,适合于需要处理大规模海量数据集的应用HDFS遵循部分POSIX协议要求,可以确保应用程序以流的方式访问文件系统数据7

HDFS的对现实应用环境的假设及其目标硬件失效流式数据访问海量数据集追加写入及文件同步“移动计算比移动数据的代价小”跨异构硬件和软件平台的可移植性8

大家有疑问的,可以询问和交流可以互相讨论下,但要小声点9

HDFS架构主从(Master/Slave)体系结构只含有一个NameNode主服务节点这个节点管理文件系统中的命名空间和调度客服端对文件的访问通常一个机器就是一个DataNode数据节点,DataNode管理本节点上数据的存储在HDFS内部,一个文件被分割为一个或多个数据块,并且这些数据块被存储在一批DataNode中。NameNode执行文件系统中命名空间的操作(打开、关闭、重命名文件和目录),NameNode需要执行数据块到DataNode映射的决策DataNode负责响应来自客户端的文件读写要求,也要负责执行来自NameNode的关于数据块创建、删除和冗余存储的指令ClientMetaDataopsWriteNameNodeMetaData(Name,replicas,…)ClientDataNodesDataNodesBlockopsReadBlockssReplicationNameNode同DataNode都是可以架设在普通商品机上,一个典型的HDFS集群中部署一个专用机做为NameNode,其余的机器部署为DataNode。虽然,这个体系结构并不排除把一个机器做为多个DataNode节点,但是这样的情况在实际部署中很少发生。单NameNode结构极大的简化了集群的系统结构,NameNode主管并且存储所有的HDFS的元数据(MetaData),系统中用户数据绝不会流过NameNode节点。10

Hadoop体系架构HDFS简介Map/Reduce模型分布式列式数据库Hbase11

Map/Reduce简介一种用于在大型商用硬件集群中(成千上万的节点)对海量数据(多个兆兆字节数据集)实施可靠的、高容错的并行计算的软件系统一个最先由Google提出的分布式计算软件构架基本原理将一个复杂的问题,分成若干个简单的子问题进行解决。然后,对子问题的结果进行合并,得到原有问题的解12

Map/Reduce概念Map和Reduce是编程语言中的概念,都是处理数据集合的函数Map在处理数据序列的过程中只处理当前的数据信息,不需要跟之前处理的状态信息交互主结

文档评论(0)

RealGenius + 关注
实名认证
文档贡献者

如有不慎侵权,请联系删除!

1亿VIP精品文档

相关文档