42大数据处理基本思想与架构教案-浙教版高中信息技术必修一.docx

下载文档

6
0
约2.66千字
约 4页
2025-02-25 发布于云南
举报
版权申诉
保障服务

42大数据处理基本思想与架构教案-浙教版高中信息技术必修一.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《大数据处理的基本思想与架构》教案

对象：高一年级

课型：新授课

课时：第一课时

【教学目标】

理解大数据处理的基本思想与架构。

理解Hadoop的组成和功能。

掌握大数据处理类型。

【教学重难点】

重点：理解大数据处理的基本思想与架构。

难点：理解Hadoop的组成与功能。

【教学准备】

教学资源：多媒体网络计算机、PPT课件。

【教学过程】

环节一新知导入

【新课导入】

教师讲述：上节课我们学习了使用Excel处理数据，也体会了Excel的方便快捷，但是现在是大数据时代，大数据的数量大、种类多等特点导致其数据的呈现方式不仅仅是简单的数字，更无法用Excel来处理，所以这节课我们来学习如何进行大数据处理。

【教师活动】

提问：之前我们已经学习过大数据的基本概念和思想了，谁还记得大数据的四大特点是什么？

回答：数据体量大、数据种类多、速度快、价值密度低。

环节二新知讲解

【大数据处理的基本思想】

提问：那么大数据处理的基本思想是什么呢？（让学生查阅教材）

回答：分治思想。

提问：那什么是分治思想呢？

教师讲述：分治思想可以分解为三个字：分、治、合。

分将问题分解为规模更小的子问题

治将规模更小的子问题逐个击破

合将已解决的子问题合并，最终得出原问题的解

比如一个数学问题，先将其拆分为三个比较短的表达式，然后算出答案，再将每个答案合并。

教师讲述：大数据处理的基本思想是统一的，但是正如“不同的锁需要不同的钥匙”，企业中不同的应用场景中的数据采用不同的计算模式，需要使用不同的大数据技术。

【大数据处理类型】

教师讲述：那接下来我们就来了解一下大数据中的三种锁，第一把锁是静态数据，所谓的静态数据，就是指在处理时已收集完成、在计算时不会发生改变的数据。

提问：根据静态数据的特征，你们能不能举出静态数据的处理实例呢？

回答：读取U盘数据、读取硬盘数据。

【Hadoop】

教师讲述：对于静态数据采用的是批处理计算，批处理就是指一批数据同时处理，其中常见的架构是Hadoop、Spark等。这节课我们主要来认识Hadoop。

教师讲述：假设硬盘读取速度永远满足要求，你的硬盘目前容量为1T，读取速度为100MB/s，这已经是非常快的速度了，要把硬盘数据全部刷一遍，要两个多小时，这也太可怕了。而Hadoop就是一个并行处理海量数据的工具，并行处理，就是结合我们之前说的大数据处理的基本思想，将读取硬盘数据的工作分成几份，比如说分成1024份，那么每份工作需要读取多少数据？

回答：1GB数据。

教师讲述：对，这1024个工作同时进行，读取速度为100MB/s，那么只需要1024/100=10.24s就足够了，时间大大缩短。

教师讲述：Hadoop诞生于大搜索应用，由于谷歌、Facebook等应用的搜索量过大、数据不方便快速处理才诞生了Hadoop。

提问：到底什么是Hadoop呢？

【学生活动】让学生自己翻阅教材P115P117，想一想Hadoop究竟是什么？

讲述：Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构，适用于静态数据批处理计算。国外有很多企业正在使用Hadoop，它的主要架构可以分为三部分：分布式文件系统、分布式数据库、分布式并行计算模型。

【分布式文件系统HDFS】

教师讲述：分布式文件系统又叫做HDFS，主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中，并用分布式系统进行管理。常见应用比如网盘、云盘等。

【分布式数据库HBase】

教师讲述：分布式数据库又叫做HBase，是一个高可靠、高性能、可伸缩、分布式的列式数据库，是谷歌BigTable数据库的开源实现。主要用来存储非结构化数据和半结构化数据，具有良好的横向扩展能力，可管理PB级的大数据。

【分布式并行计算模型MapReduce】

教师讲述：分布式并行计算模型又叫做MapReduce，由Map(映射)和Reduce（归纳）组成，自动实现分布式并行计算，核心处理思想是将任务分解并分发到多个节点上进行处理，最后汇总输出。

教师讲述：这三个系统主要是针对数据存储、管理和处理分析，我们需要明确它们各自的功能。

【流计算】

教师讲述：大数据处理的第二把锁就是流数据，流数据是指不间断地、持续地到达的实时数据，随着时间的流逝，流数据的价值会随之降低，所以可以通过实时分析计算来得到更有价值的分析结果。

提问：这反映了信息的什么特性？

回答：时效性。

提问：那同学们能不能根据流数据的概念举例流数据处理的实例呢？

回答：利用百度地图导航、打车软件

您可能关注的文档

文档评论（0）

zxuli + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

42大数据处理基本思想与架构教案-浙教版高中信息技术必修一.docx