数据仓库Hive应用实战教案1-4课时_Hadoop简介.doc

下载文档

0
0
约2.8千字
约 6页
2025-03-01 发布于山东
举报
版权申诉
保障服务

数据仓库Hive应用实战教案1-4课时_Hadoop简介.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

湖南汽车工程职业学院

教师授课教案

第1周第1-4课时累计4课时

课程名称

大数据仓库HIVE

授课课题

Hadoop简介

授课专业班级

大数据1801

教学目标

能阐述清楚Hadoop产生的原因；

能阐述清楚Hive在Hadoop生态中的意义；

能阐述清楚Pig在Hadoop生态中的意义；

能阐述清楚HBase在Hadoop生态中的意义。

教学要点

教学重点

Hadoop生态系统的主要组件

教学难点

MapReduce的工作原理

课型

一体化授课

教法与学法（教具）

示范演示法、任务驱动教学法、分组合作教学法

课后作业

完成智课堂作业、看书复习

教学后记

（教师课后填写）

授课教师

王海霞

【智课堂签到】

【课程简介及考核方式】

一、课程简介

二、课程考核方式

平时成绩占40%，期末考试占60%。

平时成绩考核包括：

1、考勤和6s管理

2、课堂测试和课后作业

三、学习机房管理制度及上机要求

【学习资源推荐】

1、传统学习资源：

权威教材

2、在线学习资源：

Hadoop生态系统中各大官方网站

【互动】

现居住地的学习环境调研？

学习准备

【新课讲授】

一、Hadoop综述

1、Hadoop概述

Hadoop是由Apache基金会开发的分布式存储与计算框架。用户不需要了解底层的分布式计算原理就可以轻松开发出分布式计算程序，可以充分利用集群中闲置的计算资源，将集群的真正威力调动起来。Hadoop由两个重要模块组成。一个是Hadoop分布式文件系统（HadoopDistributedFileSystem，简称HDFS），顾名思义，就是一个分布式的文件系统，可以将文件数据分布式地存储在集群中的不同节点上。另一个是MapReduce系统，是一个针对大量数据的分布式计算系统，其可以将计算任务分割成多个处理单元然后分散到一群家用的或服务器级别的硬件机器上，从而降低成本并提供水平可伸缩性。

2、ApacheHadoop的主要特点：

3、Hadoop名字由来

二、MapReduce综述

1、MapReduce简介

用户无需精通MapReduce就可以学习和使用Hive，但是掌握MapReduce的基本原理将有助于用户理解Hive的底层运作模式，以及了解如何操作才能更高效地运用Hive，因此本书中提供关于MapReduce的简要描述，更多关于MapReduce细节知识，请参考Tomwhite（O’Reilly）所著的Hadoop权威指南一书。

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念Map（映射），Reduce（归约），和其主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

2、MapReduce运行机制

Hadoop框架下MapReduce的运行机制《MapReduce:SimplifiedDataProcessingonLargeCluster》翻译/YaoDD/p/6017397.html，用一个典型的架构图来表示，如图1-1

《MapReduce:SimplifiedDataProcessingonLargeCluster》翻译

/YaoDD/p/6017397.html

图1-1MapReduce运行机制

（1）用户应用程序提交给Master机（主节点，负责管理文件系统的命名空间以及客户端对文件的访问）。

（2）依据程序确定运行的worker机（数据节点，充当一个node（节点），启动一个Datanode的守护进程，负责管理它所在节点上的存储）。

（3）在运行Mapper前进行分片（split）处理。

（4）在多台worker本地启用众多的Mapper运行分配的小任务，并将Mapper运行的结果写入上下文，然后进行Shuffle处理。

（5）负责运行少量Reducer任务的worker机从shuffle中将数据拉取回来。

（6）将Reducer运算结果写入输出文件（Outputfiles）。

【互动提问】

如果你不是一名Java程序员，那就不能编写JavaMapreduce代码了，但是，如果你已经熟悉SQL，那学习Hive将会相当地容易，而且很多程序都能很容易且快速实现。

【新课讲授】

三、Hadoop生态系统中的Hive

1、hive简介

Hive不仅提供了熟悉SQL的用户所能熟悉的编程模型，还消除了大量的通用代码，甚至是那些有时是不得不使用Java编写的令人棘手的代码。这就是为什么Hive对于Hadoop是如此重要的原因，无

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据仓库Hive应用实战教案1-4课时_Hadoop简介.doc