Hive内部培训资料.pptx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hive内部培训资料概要1

Hive 内部培训 顺丰科技-系统与数据集成研发中心-数据集成研发部 第一章 第二章 第三章 第四章 Hive 是什么 Hive 特性 怎么用Hive Hive的调优及发展 Hive 是什么? •Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 •本质是将HQL转换为MapReduce程序 Hive关注以下几点: 在Hadoop中的数据可扩展的SQL处理 可扩展到100PB+ 结构化和非结构化数据 ---现阶段公司只是用到结构化的数据 Hive的架构简介 – 在Hadoop生态圈的位置 Hive 将元数据存储在数据库中,如 mysql、derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。 Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。 Hive的架构简介 – 接口 1、 Hive 将元数据存储在数据库中,如 mysql、derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 2 、解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。 3 、Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。 Hive 和普通关系数据库的异同   Hive RDBMS 查询语言 HQL SQL 数据存储 HDFS Raw Device or Local FS 索引 无 有 执行 MapReduce Excutor 执行延迟 高 低 处理数据规模 大 小 1 、查询语言。专门设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 2、数据存储位置。Hive 的数据都是存储在 HDFS 中的。 3 、数据格式。Hive 中没有定义专门的数据格式,数据格式可以由用户指定. 4、数据更新。Hive 中不支持对数据的改写即没有更新 5、执行。Hive 中大多数查询的执行是通过 MapReduce 来实现的。 6、执行延迟。hive延迟较高。但由于MR框架 大数据量的访问优势明显。 7、可扩展性。由于 Hive 是建立在 Hadoop 之上的,因此 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的(Oracle 在理论上的扩展能力也只有 100 台左右。 8、数据规模。由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算,因此可以支持很大规模的数据   第一章 第二章 第三章 第四章 Hive 是什么 Hive 基本操作 怎么用Hive Hive的调优及发展 Hive基本操作 – DDL Create/Drop/Alter Database Create/Drop/Alter Table Alter Table/Partition/Column Create/Drop/Alter View Create/Drop Index Create/Drop Function Show Describe Hive基本操作 – 托管表和外部表 Hive 默认创建Managed Table,由Hive来管理数据,意味着Hive会将数据移动到数据仓库目录。 另外一种选择是创建External Table,这时Hive会到仓库目录以外的位置访问数据。 如果所有处理都由Hive完成,应该使用Managed Table。 如果要用Hive和其它工具来处理同一个数据集,应该使用External Tables。 托管表 外部表 CREATE/LOAD 把数据已到仓库目录 创建表时指明外部数据的位置 DROP 元数据和数据会被一起删除 只删除元数据 Hive基本操作 – DATABASE 在Hive中创建数据库及托管表(内部表) 1、登录进入Hive sudo -u hdfs hive; 2、查看数据库 show databases; 3、创建数据库 create dat

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档