- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hive内部培训资料概要1
Hive 内部培训
顺丰科技-系统与数据集成研发中心-数据集成研发部
第一章
第二章
第三章
第四章
Hive 是什么
Hive 特性
怎么用Hive
Hive的调优及发展
Hive 是什么?
•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
•本质是将HQL转换为MapReduce程序
Hive关注以下几点:
在Hadoop中的数据可扩展的SQL处理
可扩展到100PB+
结构化和非结构化数据 ---现阶段公司只是用到结构化的数据
Hive的架构简介 – 在Hadoop生态圈的位置
Hive 将元数据存储在数据库中,如 mysql、derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。
Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。
Hive的架构简介 – 接口
1、 Hive 将元数据存储在数据库中,如 mysql、derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
2 、解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。
3 、Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。
Hive 和普通关系数据库的异同
Hive
RDBMS
查询语言
HQL
SQL
数据存储
HDFS
Raw Device or Local FS
索引
无
有
执行
MapReduce
Excutor
执行延迟
高
低
处理数据规模
大
小
1 、查询语言。专门设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。
2、数据存储位置。Hive 的数据都是存储在 HDFS 中的。
3 、数据格式。Hive 中没有定义专门的数据格式,数据格式可以由用户指定.
4、数据更新。Hive 中不支持对数据的改写即没有更新
5、执行。Hive 中大多数查询的执行是通过 MapReduce 来实现的。
6、执行延迟。hive延迟较高。但由于MR框架 大数据量的访问优势明显。
7、可扩展性。由于 Hive 是建立在 Hadoop 之上的,因此 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的(Oracle 在理论上的扩展能力也只有 100 台左右。
8、数据规模。由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算,因此可以支持很大规模的数据
第一章
第二章
第三章
第四章
Hive 是什么
Hive 基本操作
怎么用Hive
Hive的调优及发展
Hive基本操作 – DDL
Create/Drop/Alter Database
Create/Drop/Alter Table
Alter Table/Partition/Column
Create/Drop/Alter View
Create/Drop Index
Create/Drop Function
Show
Describe
Hive基本操作 – 托管表和外部表
Hive 默认创建Managed Table,由Hive来管理数据,意味着Hive会将数据移动到数据仓库目录。
另外一种选择是创建External Table,这时Hive会到仓库目录以外的位置访问数据。
如果所有处理都由Hive完成,应该使用Managed Table。
如果要用Hive和其它工具来处理同一个数据集,应该使用External Tables。
托管表
外部表
CREATE/LOAD
把数据已到仓库目录
创建表时指明外部数据的位置
DROP
元数据和数据会被一起删除
只删除元数据
Hive基本操作 – DATABASE
在Hive中创建数据库及托管表(内部表)
1、登录进入Hive
sudo -u hdfs hive;
2、查看数据库
show databases;
3、创建数据库
create dat
您可能关注的文档
- HER2阳性乳腺癌的标准治疗.pptx
- Here are tips for finding a job(带手稿).ppt
- 杯子君(会展策划案ppt).ppt
- 杵针法要PPT.ppt
- 松江体育馆(节能方案).docx
- Hera希腊神话赫拉介绍.ppt
- 松花江特大桥水中承台围堰施工方案.doc
- 杭州西湖园林建筑赏析.ppt
- Hercules.ppt
- here__is_new_york课件.ppt
- 第12课 大一统王朝的巩固 课件(20张ppt).pptx
- 第17课 君主立宪制的英国 课件.pptx
- 第6课 戊戌变法 课件(22张ppt).pptx
- 第三章 物态变化 第2节_熔化和凝固_课件 (共46张ppt) 人教版(2024) 八年级上册.pptx
- 第三章 物态变化 第5节_跨学科实践:探索厨房中的物态变化问题_课件 (共28张ppt) 人教版(2024) 八年级上册.pptx
- 2025年山东省中考英语一轮复习外研版九年级上册.教材核心考点精讲精练(61页,含答案).docx
- 2025年山东省中考英语一轮复习(鲁教版)教材核心讲练六年级上册(24页,含答案).docx
- 第12课近代战争与西方文化的扩张 课件(共48张ppt)1.pptx
- 第11课 西汉建立和“文景之治” 课件(共17张ppt)1.pptx
- 唱歌 跳绳课件(共15张ppt内嵌音频)人音版(简谱)(2024)音乐一年级上册第三单元 快乐的一天1.pptx
文档评论(0)