Hadoop体系架构概述---备份【创意版】.pptVIP

下载本文档

2
0
约5.08千字
约 23页
2020-07-13 发布于湖北
举报
版权申诉

Hadoop体系架构概述---备份【创意版】.ppt

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

优选 Hadoop体系架构概述优选 * Hadoop体系架构 HDFS简介 Map/Reduce模型分布式列式数据库Hbase 优选 * Hadoop概述基于Apache基金会下的一个开源项目，致力于开发一个可靠的、大规模的分布式计算框架用户可采用简单的计算模型在计算机集群下对大规模的数据进行分布式处理设计理念之一是扩展单一的服务器为成千上万机器的集群，且集群中每一个机器同时提供本地计算力和存储力 Hadoop框架是在应用层检测和处理硬件失效问题，而不是依赖于硬件自身来维持高可用性。在Hadoop框架集群中硬件失效被认为是一种常态，集群的高可用性服务是建立在整个集群之上的优选 * 分布式文件系统（Hadoop Distributed File System，HDFS）并行计算模型（Map/Reduce）列式数据库（HBase）数据仓库（Hive）数据分析语言（Pig）数据格式转化工具（Sqoop）协同工作系统（Zookeeper）数据序列化系统（Avro） HDFS (Hadoop Distributed File System) Map/Reduce (Job Scheduling/Execution System) Hbase (Column Database) Pig (Data Flow) Hive (SQL) Sqoop ETL Tools BI Reporting RDBMS AvroSerialization) Zookeeper(Coordination) Hadoop整体框架优选 * Hadoop整体框架下特点 Hadoop主要在多节点集群环境下以数据存储为基础最大限度兼容结构化数据格式以数据处理为目的且其数据操作技术多样化优选 * Hadoop体系架构 HDFS简介 Map/Reduce模型分布式列式数据库Hbase 优选 * HDFS概述-----基本特征基于商用硬件环境 HDFS具有高容错性，并且被部署在廉价的硬件之上 HDFS向应用程序提供高的数据吞吐访问，适合于需要处理大规模海量数据集的应用 HDFS遵循部分POSIX协议要求，可以确保应用程序以流的方式访问文件系统数据优选 * HDFS的对现实应用环境的假设及其目标硬件失效流式数据访问海量数据集追加写入及文件同步 “移动计算比移动数据的代价小” 跨异构硬件和软件平台的可移植性优选 * 1. 硬件失效。在HDFS中，硬件失效是常态而不是意外。一个真实的HDFS环境可能由上百或上千的机器组成，每一个机器存储文件系统中的部分数据。集群中大量的机器都有极高的可能性会发生硬件故障而失效，这一真实的情况表明HDFS集群中的部分机器总是处于非正常工作状态。因此，检测机器失效并快速自动恢复发生故障的机器是HDFS的核心架构目标。 2. 流式数据访问。运行在HDFS之上的应用程序需要流式访问其数据集，这与运行在常规文件系统上的通用应用程序不一样。HDFS更适用于批量数据处理而不是用户的交互性使用。HDFS的重点是强调数据的高吞吐访问而不是数据的低延迟访问。POSIX规定了很多的硬性要求，这些要求对运行在HDFS上的应用程序而言是非必须的。但是，HDFS在几个关键领域引入了POSIX语义来提高数据的吞吐率。 3. 海量数据集。运行在HDFS上的应用是建立在海量数据集之上的。HDFS被设计来存储大文件，通常HDFS中的文件大小应该是千兆字节到兆兆字节。HDFS必须具备有很高的总数据带宽，其单一集群规模能够容乃成千上万的机器节点，并且一个HDFS集群能够支撑数以万计的文件量。 4. 追加写入及文件同步。大多数的HDFS应用都需要“一次写多次读”的文件访问模式。HDFS具有两种高级特征：刷新缓存（hflush）和文件添加（append）。刷新缓存使得一个未关闭文件的最后一个块对访问者可见的同时提供了读一致性和数据持久性。文件添加提供了在一个已关闭文件的末尾添加额外数据的机制。 5. “移动计算比移动数据的代价小”。应用所需要的计算如果在数据的附近实施效率更高，这一特性在数据量特别庞大时会显得更加明显。数据处理的本地化会最大限度地减少网络拥塞，并且提高系统整体的吞吐量。因此，在HDFS中假设移动计算至