Hadoop大数据处理实战(下篇,共上中下3篇).pptxVIP

  • 6
  • 0
  • 约 244页
  • 2023-10-19 发布于安徽
  • 举报

Hadoop大数据处理实战(下篇,共上中下3篇).pptx

根据相关教材和网络资源整理制作,可作为授课教师的参考资料和专业学生、从业人员的自学资料。如有侵权,请联系删除!

Hadoop大数据处理实战 第7章 Hive实战 本章导读Hive是构建在Hadoop上的数据仓库,其最初的主要目的是存储和处理Facebook每天产生的海量社交网络数据。此外,Hive充分利用了MapReduce编程技术,还为数据仓库管理提供了数据ETL(提取、转换和加载)工具、数据存储管理及海量数据的查询和分析等功能。本章首先介绍Hive的功能、特点及安装方法,然后重点介绍HiveQL、用户自定义函数及Hive的JDBC操作,最后介绍数据迁移工具Sqoop的安装与使用方法。 学习目标020304掌握Hive的功能和安装方法。掌握HiveQL的使用方法。掌握用户自定义函数的编写方法。掌握Hive的JDBC操作方法。掌握使用Sqoop工具导入/导出数据的方法。 01Hive概述安装与验证Hive02目录CONTENTSHiveQL详解03Hive复合数据类型04用户自定义函数05Hive的JDBC操作06数据迁移工具Sqoop07 01Hive概述 Hive是一个基于Hadoop的数据仓库框架,它使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化为MapReduce(或Spark、Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。Hive概述 7.1.1 什么是HiveHive是Hadoop的顶级项目之一,也是Hadoop生态系统中的第一个SQL框架。它提供了一种类SQL的数据查询语言——HiveQL(Hive查询语言),并且通常被用来对历史数据进行挖掘与分析。但是,Hive本身不是一个计算引擎,而是利用MapReduce、Spark、Tez等引擎执行数据查询操作。也就是说,Hive的底层会将HiveQL语句解析成MapReduce作业,交给Hadoop集群去处理。这样一来,精通SQL但Java编程能力稍弱的开发人员也能够处理集群中的海量数据。Hive概述Hive并不能解决所有的大数据问题,例如,它不提供在线事务处理、实时数据查询及记录级的数据更新,不适合实现复杂的机器学习算法等。但是,Hive对于批量处理海量数据表现良好。 7.1.2 Hive的文件存储格式Hive支持的文件存储格式主要包括TextFile、SequenceFile、RCFile等。Hive概述 1(1)TextFile(文本文件)该格式是Hive默认的存储格式。TextFile格式简单,但用它存储的数据会占用大量的磁盘空间。另外,TextFile不对数据进行压缩。 2(2)SequenceFile(序列文件)该格式文件存储的数据是有序键值对,并具有可分割和可压缩的特点。SequenceFile是二进制文件,所以创建此格式的表时,不使用ROW FORMAT字句设置数据格式,只需要在SORTED AS子句中声明即可。 Hive概述 3使用该格式存储数据时,先对数据水平切分,再做垂直切分。RCFile将若干行数据合为一个行组(row group),并将每个行组放在一个block中,这样一来,就能够保证同一行的所有数据都在同一个节点上。RCFile采用gzip压缩算法对每个列进行独立压缩,并采用lazy解压技术对每个列进行独立解压,即列不在内存中解压,只在查询时才进行解压。(3)RCFile(列式记录文件) 7.1.3 Hive支持的数据类型Hive中的数据类型Hive概述基本数据类型:复合数据类型INT(整型)、BOOLEAN(布尔型)、STRING(字符串型)和TIMESTAMP(时间戳)等 Hive概述类 型描 述TINYINT微整型,1 BSMALLINT小整型,2 BINT整型,4 BBIGINT大整型,8 BBOOLEAN布尔型,true/falseFLOAT单精度浮点型,4 BDOUBLE双精度浮点型,8 BSTRING字符串型TIMESTAMP时间戳,从Hive 0.8.0开始支持。如“1970-01-01 08:00:00.013”DECIMAL可带小数的精确数字字符串,从Hive 0.11.0开始支持BINARY字节序列,从Hive 0.8.0开始支持CHAR字符类型,从Hive 0.13.0开始支持VARCHAR变长字符类型,从Hive 0.12.0开始支持DATE日期类型,从Hive 0.12.0开始支持Hive的基本数据类型 7.1.4 Hive中常用的函数Hive中常用的函数包括数值相关函数、字符串相关函数、条件函数、时间相关函数、聚合函数和类型转换函数等。Hive概述Hive中常用的函数分 类函 数描 述数值 相关函数greatest(T v1, T v2, ...)返回一组相同类型数据中的最大值(过滤NULL值)least

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档