大数据技术基础教程 课件 第7章 数据仓库Hive.pptx

大数据技术基础教程 课件 第7章 数据仓库Hive.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第7章数据仓库Hive《大数据技术基础教程》

学习目标/Target了解数据仓库Hive的架构原理、数据类型和数据模型掌握数据仓库Hive的DML和DDL的基本操作掌握数据仓库HiveJDBC的基本操作

章节概述/SummaryHive是Hadoop中的一个重要子项目,它利用MapReduce编程技术,实现了部分SQL语句,提供了类SQL的编程接口。Hive的出现极大地推进了Hadoop在数据仓库方面的发展。hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,本章将简要介绍Hive简介、Hive架构原理、Hive数据类型及应用、Hive数据模型、DDL数据库语言应用、HiveJDBC编程实践。

目录/Contentive简介Hive架构原理Hive数据类型及应用Hive数据模型05DDL数据库语言应用06DML数据库语言应用07HiveJDBC访问

Hive简介7.1

7.1Hive简介7.1.1Hive概论Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook2008年8月开源的一个数据仓库框架,它提供了一个被称为Hive查询语言(简称HiveOL或HOL)的SOL语言,来查询存储在Hadoop集群中的数据。

7.1Hive简介7.1.1Hive概论Hive不支持OLTP(联机事务处理)所需的关键功能,而更接近成为一个OLAP(联机分析技术)工具。但是由于Hadoop本身的时间开销很大,并且Hadoop所被设计用来处理的数据规模非常大,因此提交查询和返回结果是可能具有非常大的延时的,所以Hive并没有满足OLAP中的“联机”部分,至少目前并没有满足。

7.1Hive简介7.1.1Hive概论由于大多数的数据仓库应用程序是使用基于SQL的关系型数据库实现的,所以Hive降低了将这些应用程序移植到Hadoop上的障碍。用户如果懂得SQL,那么学习使用Hive将会很容易。如果没有Hive,那么这些用户就需要去重新学习新的语言和新的工具后才能进行生产。

7.1Hive简介7.1.2Hive的优缺点由于Hive使用类SQL查询语法,最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线使用JDBC接口/ODBC接口,开发人员更易开发应用Hive以MR作为计算引擎、HDFS作为存储系统,为超大数据集设计的计算和扩展能力具有统一的元数据管理(Derby、MySql等),并可与Pig、Presto等共享Hive还支持用户自定义函数,用户可以根据自己的需求来实现自己的函数Hive的优点

7.1Hive简介7.1.2Hive的优缺点由于Hive基于MR计算引擎,涉及到过多的磁盘I/O,因此hive的延迟比较高,比较适用用大量数据的统计分析,主要用于离线统计分析,对于实时要求不高的场合。Hive的HQL表达能力有限,导致迭代式算法无法表达,同时由于MapReduce数据处理流程的限制,Hive不能胜任数据挖掘方面的工作。一般而言,Hive自动生成的MapReduce作业,通常情况下不够智能化,因而效率比较低,调优比较困难,粒度较粗。Hive的缺点

7.1Hive简介7.1.3Hive和传统数据库比较Hive和数据库除了拥有类似的查询语言,再无类似之处。

Hive构架原理7.2

7.2Hive构架原理作为基于Hadoop的主要数据仓库解决方案,HiveSQL是主要的交互接口,实际的数据保存在HDFS文件中,真正的计算和执行则由MapReduce完成,而它们之间的桥梁是Hive引擎。

7.2Hive构架原理7.2.1用户接口shell/CLI,jdbc/odbc,webuicommandlineinterfaceCLI,shell终端命令行,采用交互式使用hive命令行与hive进行交互JDBC/ODBC,是hive基于JDBC提供的客户端,用户通过它连接至hiveserver服务WebUI,通过浏览器访问hive

7.2Hive构架原理7.2.2元数据Metastore表所属数据库(默认是default)、表的拥有者、表名及表的注释、字段及字段的注释、列/分区字段、表的类型(是否是外部表)、表数据所在目录等。而表里面具体的内容则在HDFS里,很多框架比如Atlas就是监控元数据库matestore中的表信息来实现元数据管理。元数据默认存储在自带的derby数据库(小巧但是很多缺点,比如不支持并发连接,可以理解为轻量级的MySQL数据库)中,一般都采用MySQL存储Metastore(即换成用MySQL来存元数据)。

7.2Hive

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档