hadoop生态系统及简介.pdfVIP

下载本文档

9
0
约3.17千字
约 7页
2021-11-26 发布于天津
举报

hadoop生态系统及简介.pdf

hadoop 生态系统及简介一、 hadoop1.x 的生态系统 HBase ：实时分布式数据库相当于关系型数据库，数据放在文件中，文件就放在 HDFS 中。因此 HBase 是基于 HDFS 的关系型数据库。实时性：延迟非常低，实时性高。举例：在近 18 亿条数据的表中查询 1 万条数据仅需 1.58s ，这是普通数据库（Oracle 集群， Mysql 集群）无法办到的。 HDFS ：分布式文件系统 MapReduce ：分布式计算框架 Zookeeper ：分布式协作服务协作 HBase 存储、管理、查询数据， Zookeeper 是一个很好的分布式协作服务框架。 Hive ：数据仓库数据仓库：比如给你一块 1000 平方米的仓库，让你放水果。如果有春夏秋冬四季的水果，让你放在某一个分类中。但是水果又要分为香蕉、苹果等等。然后又要分为好的水果和坏的水果。。。。。因此数据仓库的概念也是如此，他是一个大的仓库，然后里面有很多格局，每个格局里面又分小格局等等。对于整个系统来说，比如文件系统。文件如何去管理？ Hive 就是来解决这个问题。 Hive ：分类管理文件和数据，对这些数据可以通过很友好的接口，提供类似于 SQL 语言的 HiveQL 查询语言来帮助你进行分析。其实 Hive 底层是转换成 MapReduce 的，写的 HiveQL 进行执行的时候， Hive 提供一个引擎将其转换成 MapReduce 再去执行。 Hive 设计目的：方便 DBA 很快地转到大数据的挖掘和分析中。 Pig ：数据流处理基于 MapReduce 的，基于流处理的。写了动态语言之后，也是转换成 MapReduce 进行执行。和 Hive 类似。 Mahout ：数据挖掘库基于图形化的数据碗蕨。 Sqoop ：数据库 ETL 工具 ELT ：提取 -- 转换 -- 加载。从数据库中获取数据，并进行一系列的数据清理和清洗筛选，将合格的数据转换成一定格式的数据进行存储，将格式化的数据存储到 HDFS 文件系统上，以供计算框架进行数据分析和挖掘。格式化数据： TSV 格式：每行数据的每列之间以制表符（ tab \t ）进行分割 CVS 格式：每行数据的每列之间以逗号进行分割 Sqoop ：将关系型数据库中的数据与 HDFS （HDFS 文件， HBase 中的表， Hive 中的表）上的数据进行相互导入导出。 Flume ：日志收集工具将大的集群上面的每台机器的日志收集起来，自动地放到你指定的 HDFS 文件系统的某个路径中去。 Ambari ：安装、部署、配置和管理工具提供一个图形化工具对集群进行安装、部署、配置及管理，无需手动在命令行操作。回到顶部四、hadoop2.x 的生态系统 YARN ：集群资源管理系统对整个集群每台机器的资源进行管理，对每个服务、每个 job 、每个应用进行调度（CPU 等）。 HDFS2 ：分布式文件系统增强了一些特性，最主要的就是 NameNode 的单节点故障和 NameNode 的横向扩展。 Tez ：DAG 计算框架 Storm ：流式计算框架

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

hadoop生态系统及简介.pdfVIP