大学课程《大数据应用技术基础》教案：3.2.2Hive的数据模型.docVIP

下载本文档

0
0
约1.8千字
约 4页
2026-01-21 发布于贵州
举报

大学课程《大数据应用技术基础》教案：3.2.2Hive的数据模型.doc

PAGE

PAGE3

《大数据应用技术基础》教学设计

课题

Hive的数据模型

课型

理论

班级

教师

课时

教学分析

教材分析

教师备课时填写

学情分析

教师备课时填写

教学目标

知识

1．能说出Hive数据模型及作用；

2．能比较Hive数据模型与SQL数据模型；

3．能描述Hive数据表的用途；

4．能描述Hive的数据文件

技能

1．能选择需要的Hive数据表类型；

2．能说明Hive数据文件的优劣。

素养

1．培养关注行业前沿技术发展的意识；

2．培养大数据应用意识。

教学重点

Hive数据模型

教学难点

Hive数据文件特性

教学方法

讲授法、讨论法、演示法

教学环境

软件环境：CentOS7操作系统

硬件环境：多媒体教室或软件实训室，计算机

教学资源：PPT、微课视频

教学反思

教师课后填写

教学过程

教学环节

教师活动

学生活动

新课导入

(5分钟)

1．交流介绍数据模型在数据管理及应用中的地位和作用？

2．请你思考数据和数据模型的关系？

讨论

交流

目标展示

(5分钟)

PPT展示本课题要完成的目标并适当解说

观看

了解

新课教学

（60分钟）

活动一认识Hive的数据模型(20分钟)

1．Hive的数据模型

Hive的数据模型相当于SQL数据库的逻辑数据模型用于描述Hive表的结构。

Hive表也是由逻辑行、列组成的，但与数据是分享的，数据存储在HDFS文件系统中。

2．Hive的数据表

（1）内部表

由Hive管理的表，也称为管理表。内部表与数据紧密相关。对应HDFS系统中的一个目录。

内部表一般用于处理仅需临时存储的数据。

（2）外部表

外部表的数据不由Hive管理，它们可以存储在HDFS中的任何目录中。

当删除外部表时，只是删除了外部表的定义，而不会把数据从HDFS系统中删除。

类似SQL数据库中的外模式。

（3）分区表

在Hive中可以根据某一列（字段）的值将表分成若干子表（对应目录），这样的子表就是分区表。静态分区表和动态分区表。

分区表可提高查询效率。

（4）桶表

桶是一种特殊的分区（对应数据文件），表或分区中的数据在Hash函数控制下进一步分成桶。

问：比较分区与桶表。

（5）视图

视图又称为虚表，在视图中查询的数据要从相关的基数据表中来。

视图可以跨多个表建立。

视图的主要用途是简化复杂查询任务。

笔记

讨论

笔记

讨论

活动二Hive数据文件（30分钟）

问：为什么要采用多种组织结构的数据文件？

1．行式存储文件

（1）文本文件

Hive数据表的默认格式，采用行存方式。

不支持块压缩，读性能低。

问：什么是序列化和反序列化？

（2）序列化文件

序列化文件用来存储二进制形式键-值对而设计的一种平面文件。

（3）Avro文件

是Hadoop平台上基于行存储格式的数据文件，被广泛用作序列化。

采用JSON描述数据，具有语言中立性。

支持二进制序列化、文件分割、块压缩，可以便捷、高效地处理大量数据。

2．列式存储文件

（1）ORC文件

ORC文件提供了一种高效的数据存储方式，它把数据按行分块，每块按照列存储。

具有行存储和列存储的优势，可压缩。

（2）Parquet文件

面向分析型业务的列式存储格式。以二进制方式存储，文件中包括数据和元数据。

问：怎样选择Hive使用的数据文件格式？

Hive表的数据存储格式一般选择ORC或Parquet，而对数据模式变动频繁的应用建议选用Avro。Hive的默认数据文件格式为文本文件

讨论

分析

笔记

讨论

交流

笔记

讨论作答

讨论

展示评价

（5分钟）

1．Hive表格式有。

2．Hive数据文件格式有。

3．Hive默认数据文件是格式，从数据分析效能来看应选择格式的数据文件。

完成练习

课堂小结

(5分钟)

1．Hive数据模型及作用；

2．Hive数据表的用途；

3．Hive的数据文件。

个别与集体结合回顾学习的内容

课后作业

教师备课时填写或课后自行针对性命题

知识技能拓展

调研说明Hadoop技术在大数据领域中的应用情况。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大学课程《大数据应用技术基础》教案：3.2.2Hive的数据模型.docVIP