- 6
- 0
- 约 244页
- 2023-10-19 发布于安徽
- 举报
根据相关教材和网络资源整理制作,可作为授课教师的参考资料和专业学生、从业人员的自学资料。如有侵权,请联系删除!
Hadoop大数据处理实战
第7章 Hive实战
本章导读Hive是构建在Hadoop上的数据仓库,其最初的主要目的是存储和处理Facebook每天产生的海量社交网络数据。此外,Hive充分利用了MapReduce编程技术,还为数据仓库管理提供了数据ETL(提取、转换和加载)工具、数据存储管理及海量数据的查询和分析等功能。本章首先介绍Hive的功能、特点及安装方法,然后重点介绍HiveQL、用户自定义函数及Hive的JDBC操作,最后介绍数据迁移工具Sqoop的安装与使用方法。
学习目标020304掌握Hive的功能和安装方法。掌握HiveQL的使用方法。掌握用户自定义函数的编写方法。掌握Hive的JDBC操作方法。掌握使用Sqoop工具导入/导出数据的方法。
01Hive概述安装与验证Hive02目录CONTENTSHiveQL详解03Hive复合数据类型04用户自定义函数05Hive的JDBC操作06数据迁移工具Sqoop07
01Hive概述
Hive是一个基于Hadoop的数据仓库框架,它使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化为MapReduce(或Spark、Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。Hive概述
7.1.1 什么是HiveHive是Hadoop的顶级项目之一,也是Hadoop生态系统中的第一个SQL框架。它提供了一种类SQL的数据查询语言——HiveQL(Hive查询语言),并且通常被用来对历史数据进行挖掘与分析。但是,Hive本身不是一个计算引擎,而是利用MapReduce、Spark、Tez等引擎执行数据查询操作。也就是说,Hive的底层会将HiveQL语句解析成MapReduce作业,交给Hadoop集群去处理。这样一来,精通SQL但Java编程能力稍弱的开发人员也能够处理集群中的海量数据。Hive概述Hive并不能解决所有的大数据问题,例如,它不提供在线事务处理、实时数据查询及记录级的数据更新,不适合实现复杂的机器学习算法等。但是,Hive对于批量处理海量数据表现良好。
7.1.2 Hive的文件存储格式Hive支持的文件存储格式主要包括TextFile、SequenceFile、RCFile等。Hive概述 1(1)TextFile(文本文件)该格式是Hive默认的存储格式。TextFile格式简单,但用它存储的数据会占用大量的磁盘空间。另外,TextFile不对数据进行压缩。 2(2)SequenceFile(序列文件)该格式文件存储的数据是有序键值对,并具有可分割和可压缩的特点。SequenceFile是二进制文件,所以创建此格式的表时,不使用ROW FORMAT字句设置数据格式,只需要在SORTED AS子句中声明即可。
Hive概述 3使用该格式存储数据时,先对数据水平切分,再做垂直切分。RCFile将若干行数据合为一个行组(row group),并将每个行组放在一个block中,这样一来,就能够保证同一行的所有数据都在同一个节点上。RCFile采用gzip压缩算法对每个列进行独立压缩,并采用lazy解压技术对每个列进行独立解压,即列不在内存中解压,只在查询时才进行解压。(3)RCFile(列式记录文件)
7.1.3 Hive支持的数据类型Hive中的数据类型Hive概述基本数据类型:复合数据类型INT(整型)、BOOLEAN(布尔型)、STRING(字符串型)和TIMESTAMP(时间戳)等
Hive概述类 型描 述TINYINT微整型,1 BSMALLINT小整型,2 BINT整型,4 BBIGINT大整型,8 BBOOLEAN布尔型,true/falseFLOAT单精度浮点型,4 BDOUBLE双精度浮点型,8 BSTRING字符串型TIMESTAMP时间戳,从Hive 0.8.0开始支持。如“1970-01-01 08:00:00.013”DECIMAL可带小数的精确数字字符串,从Hive 0.11.0开始支持BINARY字节序列,从Hive 0.8.0开始支持CHAR字符类型,从Hive 0.13.0开始支持VARCHAR变长字符类型,从Hive 0.12.0开始支持DATE日期类型,从Hive 0.12.0开始支持Hive的基本数据类型
7.1.4 Hive中常用的函数Hive中常用的函数包括数值相关函数、字符串相关函数、条件函数、时间相关函数、聚合函数和类型转换函数等。Hive概述Hive中常用的函数分 类函 数描 述数值相关函数greatest(T v1, T v2, ...)返回一组相同类型数据中的最大值(过滤NULL值)least
您可能关注的文档
- Hadoop大数据处理实战(中篇,共上中下3篇).pptx
- Hadoop大数据处理实战(上篇,共上中下3篇).pptx
- 3D打印建筑垃圾试题库及答案.doc
- 5A 景区服务质量等级评定标准单选试题库及答案.doc
- 5A级景区评定标准:服务质量与环境质量试题库及答案.doc
- 5A景区服务质量等级评定标准单选试题库及答案.doc
- 5A景区服务质量等级评定标准单选试题库及答案.docx
- 5G 基站散热器冷锻模具寿命提升试题库及答案.doc
- 专项训练驱使下的会奖旅游策划人才培养方法.doc
- 3D打印技术应用试题库及答案.doc
- 七年级语文上册期末模拟试卷1(解析版).docx
- 七年级语文上册期末模拟试卷1(原卷版).docx
- 七年级语文上册期末模拟试卷2(原卷版).docx
- 七年级语文上册期末模拟试卷2(解析版).docx
- 期末测试卷(二)(解析版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(三)(解析版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(二)(原卷版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(三)(原卷版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(一)(原卷版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(一)(解析版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
最近下载
- GJB8848-2024系统电磁环境效应试验方法.pptx VIP
- 河南豫能控股股份有限公司及所管企业2026届校园招聘127人备考题库精编答案详解.docx VIP
- 2024-2025学年河南省郑州市七年级上期末数学试卷附答案解析.docx VIP
- 国家建筑标准设计图集 23S519小型排水构筑物图集.pdf VIP
- 大画幅相机的基本操作.doc VIP
- 2024脓毒症液体治疗急诊专家共识.pdf
- 2025届T8八省八校高三联考语文试卷讲评 课件.pptx VIP
- 大画幅相机基本操作(二).doc VIP
- 2025年度民主生活会“五个带头”个人检查发言8篇.docx VIP
- 23S519小型排水构筑物图集.docx VIP
原创力文档

文档评论(0)