《Hive基础知识》课件.docxVIP

下载本文档

1
0
约3.37千字
约 5页
2024-03-01 发布于云南
举报
版权申诉

《Hive基础知识》课件.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hive基础知识

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

1.简介

hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的工具进行数据提取转化加载，用来存储、查询和分析存储在Hadoop中的大规模数据集，并支持UDF（User-DefinedFunction）、UDAF(User-DefnesAggregateFunction)和UDTF（User-DefinedTable-GeneratingFunction），也可以实现对map和reduce函数的定制，为数据操作提供了良好的伸缩性和可扩展性。?[2]?

hive不适合用于联机(online)事务处理，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。hive的特点包括：可伸缩（在Hadoop的集群上动态添加设备）、可扩展、容错、输入格式的松散耦合。?[2]?

2.适用场景

hive构建在基于静态批处理的Hadoop之上，Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，hive并不能够在大规模数据集上实现低延迟快速的查询，例如，hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。?[3]?

因此，hive并不适合那些需要高实时性的应用，例如，联机事务处理（OLTP）。hive查询操作过程严格遵守HadoopMapReduce的作业执行模型，hive将用户的hiveSQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业执行结果给用户。hive并非为联机事务处理而设计，hive并不提供实时的查询和基于行级的数据更新操作。hive的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。?[4]?

3.设计特征

hive是一种底层封装了Hadoop的数据仓库处理工具，使用类SQL的hiveSQL语言实现数据查询，所有hive的数据都存储在Hadoop兼容的文件系统（例如，AmazonS3、HDFS）中。hive在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS中hive设定的目录下，因此，hive不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。hive的设计特点如下。?[3]?

●支持创建索引，优化数据查询。?[3]?

●不同的存储类型，例如，纯文本文件、HBase中的文件。?[3]?

●将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。?[3]?

●可以直接使用存储在Hadoop文件系统中的数据。?[3]?

●内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF函数来完成内置函数无法实现的操作。?[3]?

●类SQL的查询方式，将SQL查询转换为MapReduce的job在Hadoop集群上执行。?[3]?

4.体系结构

主要分为以下几个部分：?[4]?

4.1.用户接口

用户接口主要有三个：CLI，Client和WUI。其中最常用的是Cli，Cli启动的时候，会同时启动一个hive副本。Client是hive的客户端，用户连接至hiveServer。在启动Client模式的时候，需要指出hiveServer所在节点，并且在该节点启动hiveServer。WUI是通过浏览器访问hive。?[4]?

4.2.元数据存储

hiv

您可能关注的文档

文档评论（0）

1658576823bd104 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《Hive基础知识》课件.docxVIP