- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Hive数据仓库
1.1Hive简介
(1)Hive介绍
Hive是构建在Hadoop之上的数据仓库平台,可以将结构化的数据文件映射为一张数据库表,并提供简
单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
由Facebook开发,在某种程度上可以看成是用户编程接口,本身并不存储和处理数据,依赖于HDFS存
储数据,依赖MR处理数据。有类SQL语言HiveQL,不完全支持SQL标准,如,不支持更新操作、索引
和事务,其子查询和连接操作也存在很多限制。
Hive把HQL语句转换成MR任务后,采用批处理的方式在Hadoop上对海量数据进行处理。数据仓库存
储的是静态数据,很适合采用MR进行批处理。Hive还提供了一系列对数据进行提取、转换、加载的工
具,可以存储、查询和分析存储在HDFS上的数据。
(2)Hive设计目标
Hive的设计目标是使Hadoop上的数据操作与传统SQL相结合,让熟悉SQL编程的开发人员能够轻松向
Hadoop平台迁移。Hive提供类似SQL的查询语言HQL,HQL在底层被转换为相应的MapReduce操作。
Hive在HDFS上构建数据仓库来存储结构化数据,这些数据一般来源于HDFS上的原始数据,使用Hive可
以对这些数据执行查询、分析等操作。
(3)Hive与Hadoop生态系统中其他组件的关系
Hive依赖于HDFS存储数据,依赖MR处理数据;
Pig可作为Hive的替代工具,是一种数据流语言和运行环境,适合用于在Hadoop平台上查询半结构化数
据集,用于与ETL过程的一部分,即将外部数据装载到Hadoop集群中,转换为用户需要的数据格式;
HBase是一个面向列的、分布式可伸缩的数据库,可提供数据的实时访问功能,而Hive只能处理静态数
据,主要是BI报表数据,Hive的初衷是为减少复杂MR应用程序的编写工作,HBase则是为了实现对数
据的实时访问。
图示图示说明
Hive与Hadoop生态系统中其他组
件的关系
(4)Hive的系统架构
Hive主要由以下三个模块组成:
1)用户接口模块,含CLI、HWI、JDBC、ThriftServer等,用来实现对Hive的访问。
CLI是Hive自带的命令行界面;HWI是通过浏览器访问Hive的WebGUI;JDBC、ODBC以及Thrift
Server可向用户提供进行编程的接口,其中ThriftServer是基于Thrift软件框架开发的,提供Hive的RPC
通信接口。Thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。
2)驱动模块(Driver),含编译器、优化器、执行器等,负责把HiveQL语句转换成一系列MR作业,所
有命令和查询都会进入驱动模块,通过该模块的解析编译,对计算过程进行优化,然后按照指定的步骤
执行。
驱动模块(Driver)完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划(plan)的生
成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。
Hive的数据存储在HDFS中,大部分的查询由MapReduce完成。
3)元数据存储模块(Metastore),是一个独立的关系型数据库,通常与MySQL数据库连接后创建的
一个MySQL实例,也可以是Hive自带的Derby数据库实例。此模块主要保存表模式和其他系统元数据,
如表的名称、表的列及其属性、表的分区及其属性、表的属性(是否为外部表等)、表中数据所在目录
信息等。
喜欢图形界面的用户,可采用几种典型的外部访问工具:Karmasphere、Hue、Qubole等。
图示图示说明
您可能关注的文档
- 云计算与大数据技术 验证性实验指导 实验实践1-1.Linux (CentOS)安装过程遇到的问题及解决办法.pdf
- 云计算与大数据技术 验证性实验指导 实验实践11. Flink流式计算引擎及实践.pdf
- 云计算与大数据技术 验证性实验指导汇总 实验实践1.安装虚拟机软件-VirtualBox和安装CentOS操作系统---知识补充4.Typora 工具软件简介与安装及使用.pdf
- 云计算与大数据技术 验证性实验指导 实验实践知识补充1.linux操作系统介绍;补充2.linux操作系统基本设置与XShell及Winscp工具介绍.pdf
- 云计算与大数据技术 验证性实验指导 实验实践10.Spark的安装配置及使用实践;11. Flink流式计算引擎及实践.pdf
- 云计算与大数据技术 验证性实验指导 实验实践3.Linux操作系统实践-常用指令;4.JDK 安装与配置和MySQL安装与配置;5.大数据计算框架Hadoop3.0的安装部署与配置及HDFS常用指令.pdf
- 云计算与大数据技术 验证性实验指导 实验实践1.安装虚拟机软件-VirtualBox和安装CentOS操作系统;2.Linux操作系统基本环境设置和安装配置Xshell和Winscp.pdf
- 云计算与大数据技术 课件1.1云计算-云计算简述.pptx
- 1.2云计算-云计算与大数据简史.pptx
- 云计算与大数据技术 课件1.3云计算-云计算分类及及应用.pptx
- 英语人教PEP版八年级(上册)Unit4+writing+写作.pptx
- 人美版美术四年级(上册)8 笔的世界 课件 (1).pptx
- 人美版美术七年级(上册)龙的制作.pptx
- 英语人教PEP版六年级(上册)Unit 2 第一课时.pptx
- 数学苏教版三年级(上册)3.3 长方形和正方形周长的计算 苏教版(共12张PPT).pptx
- 音乐人教版八年级(上册)青春舞曲 课件2.pptx
- 音乐人教版四年级(上册) 第一单元 音乐知识 附点四分音符|人教版.pptx
- 英语人教PEP版四年级(上册)Unit 6 Part B let's learn 1.pptx
- 道德与法治人教版二年级(上册)课件-3.11大家排好队部编版(共18张PPT).pptx
- 人美版美术七年级(上册)《黄山天下奇》课件1.pptx
文档评论(0)