大讲台谈Hive(初篇).docVIP

下载本文档

7
0
约 5页
2017-05-05 发布于上海
举报
版权申诉

大讲台谈Hive(初篇).doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大讲台谈Hive(初篇)

大讲台谈Hive(初篇) 大讲台谈hive（初篇）认识 Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统，它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行，通过自己的 SQL 去查询分析需要的内容，这套 SQL 简称 Hive SQL，使不熟悉 MapReduce 的用户很方便地利用 SQL 语言查询、汇总、分析。 Hive 工作原理 Hive 工作原理如下图所示。 MapReduce 开发人员可以把自己写的 Mapper 和 Reducer 作为插件支持 Hive 做更复杂的数据分析。它与关系型数据库的 SQL 略有不同，但支持了绝大多数的语句（如 DDL、DML）以及常见的聚合函数、连接查询、条件查询等操作。 Hive 不适合用于联机(online) 事务处理，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。Hive 的特点是可伸缩（在Hadoop 的集群上动态的添加设备），可扩展、容错、输入格式的松散耦合。Hive 的入口是DRIVER ，执行的 SQL 语句首先提交到 DRIVER 驱动，然后调用 COMPILER 解释驱动，最终解释成 MapReduce 任务执行，最后将结果返回。 Hive 数据类型 Hive 提供了基本数据类型和复杂数据类型，复杂数据类型是 Java 语言所不具有的。本课程介绍 Hive 的两种数据类型以及数据类型之间的转换。基本数据类型由上表我们看到hive不支持日期类型，在hive里日期都是用字符串来表示的，而常用的日期格式转化操作则是通过自定义函数进行操作。 hive是用java开发的，hive里的基本数据类型和java的基本数据类型也是一一对应的，除了 string类型。有符号的整数类型：TINYINT、SMALLINT、INT和BIGINT分别等价于java的byte、short、int和 long原子类型，它们分别为1字节、2字节、4字节和8字节有符号整数。Hive的浮点数据类型FLOAT和DOUBLE,对应于java的基本类型 float和double类型。而hive的BOOLEAN类型相当于java的基本数据类型boolean。对于hive的String类型相当于数据库的varchar类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储2GB的字符数。复杂数据类型 Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array 和 Map 类似，而STRUCT 与 C语言中的 Struct 类似，它封装了一个命名字段集合，复杂数据类型允许任意层次的嵌套。 Hive 安装 Hive 安装依赖 Hadoop 的集群，它是运行在 Hadoop 的基础上。所以在安装 Hive 之前，保证 Hadoop 集群能够成功运行。 Hive 架构 Hive 架构可以分为四部分。用户接口 Hive 对外提供了三种服务模式，即 Hive 命令行模式（CLI），Hive 的 Web 模式（WUI），Hive 的远程服务（Client）。下面介绍这些服务的用法。 1、 Hive 命令行模式 Hive 命令行模式启动有两种方式。执行这条命令的前提是要配置 Hive 的环境变量。 2、Hive Web 模式元数据存储 Hive 将元数据存储在 RDBMS 中，一般常用 MySQL 和 Derby。默认情况下，Hive 元数据保存在内嵌的 Derby 数据库中，只能允许一个会话连接，只适合简单的测试。实际生产环境中不适用，为了支持多用户会话，则需要一个独立的元数据库，使用 MySQL 作为元数据库，Hive 内部对 MySQL 提供了很好的支持解释器、编译器、优化器 Driver 调用解释器（Compiler）处理 HiveQL 字串，这些字串可能是一条 DDL、DML或查询语句。编译器将字符串转化为策略（plan）。策略仅由元数据操作和 HDFS 操作组成，元数据操作只包含 DDL 语句，HDFS 操作只包含 LOAD 语句。对插入和查询而言