- 9
- 0
- 约3.17千字
- 约 7页
- 2021-11-26 发布于天津
- 举报
hadoop 生态系统及简介
一、 hadoop1.x 的生态系统
HBase :实时分布式数据库
相当于关系型数据库,数据放在文件中,文件就放在 HDFS 中。因此 HBase 是基
于 HDFS 的关系型数据库。实时性:延迟非常低,实时性高。
举例:在近 18 亿条数据的表中查询 1 万条数据仅需 1.58s ,这是普通数据库 (Oracle
集群, Mysql 集群)无法办到的。
HDFS :分布式文件系统
MapReduce :分布式计算框架
Zookeeper :分布式协作服务
协作 HBase 存储、管理、查询数据, Zookeeper 是一个很好的分布式协作服务框
架。
Hive :数据仓库
数据仓库 :
比如给你一块 1000 平方米的仓库,让你放水果。如果有春夏秋冬四季的水果,让
你放在某一个分类中。但是水果又要分为香蕉、苹果等等。然后又要分为好的水果
和坏的水果。。。。。
因此数据仓库的概念也是如此,他是一个大的仓库,然后里面有很多格局,每个格
局里面又分小格局等等。 对于整个系统来说, 比如文件系统。 文件如何去管理? Hive
就是来解决这个问题。
Hive :
分类管理文件和数据, 对这些数据可以通过很友好的接口, 提供类似于 SQL 语言的
HiveQL 查询语言来帮助你进行分析。其实 Hive 底层是转换成 MapReduce 的,
写的 HiveQL 进行执行的时候, Hive 提供一个引擎将其转换成 MapReduce 再去执
行。
Hive 设计目的 :方便 DBA 很快地转到大数据的挖掘和分析中。
Pig :数据流处理
基于 MapReduce 的,基于流处理的。 写了动态语言之后, 也是转换成 MapReduce
进行执行。和 Hive 类似。
Mahout :数据挖掘库
基于图形化的数据碗蕨。
Sqoop :数据库 ETL 工具
ELT :提取 -- 转换 -- 加载。
从数据库中获取数据,并进行一系列的数据清理和清洗筛选,将合格的数据转换成
一定格式的数据进行存储,将格式化的数据存储到 HDFS 文件系统上,以供计算框
架进行数据分析和挖掘。
格式化数据:
TSV 格式 :每行数据的每列之间以制表符( tab \t )进行分割
CVS 格式 :每行数据的每列之间以逗号进行分割
Sqoop :将关系型数据库中的数据与 HDFS (HDFS 文件, HBase 中的表, Hive
中的表)上的数据进行相互导入导出。
Flume :日志收集工具
将大的集群上面的每台机器的日志收集起来,自动地放到你指定的 HDFS 文件系统
的某个路径中去。
Ambari :安装、部署、配置和管理工具
提供一个图形化工具对集群进行安装、 部署、配置及管理, 无需手动在命令行操作。
回到顶部
四、hadoop2.x 的生态系统
YARN :集群资源管理系统
对整个集群每台机器的资源进行管理,对每个服务、每个 job 、每个应用进行调度
(CPU 等)。
HDFS2 :分布式文件系统
增强了一些特性,最主要的就是 NameNode 的单节点故障和 NameNode 的横向
扩展。
Tez :DAG 计算框架
Storm :流式计算框架
原创力文档

文档评论(0)