42大数据处理基本思想与架构教案-浙教版高中信息技术必修一.docx

42大数据处理基本思想与架构教案-浙教版高中信息技术必修一.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《大数据处理的基本思想与架构》教案

对象:高一年级

课型:新授课

课时:第一课时

【教学目标】

理解大数据处理的基本思想与架构。

理解Hadoop的组成和功能。

掌握大数据处理类型。

【教学重难点】

重点:理解大数据处理的基本思想与架构。

难点:理解Hadoop的组成与功能。

【教学准备】

教学资源:多媒体网络计算机、PPT课件。

【教学过程】

环节一新知导入

【新课导入】

教师讲述:上节课我们学习了使用Excel处理数据,也体会了Excel的方便快捷,但是现在是大数据时代,大数据的数量大、种类多等特点导致其数据的呈现方式不仅仅是简单的数字,更无法用Excel来处理,所以这节课我们来学习如何进行大数据处理。

【教师活动】

提问:之前我们已经学习过大数据的基本概念和思想了,谁还记得大数据的四大特点是什么?

回答:数据体量大、数据种类多、速度快、价值密度低。

环节二新知讲解

【大数据处理的基本思想】

提问:那么大数据处理的基本思想是什么呢?(让学生查阅教材)

回答:分治思想。

提问:那什么是分治思想呢?

教师讲述:分治思想可以分解为三个字:分、治、合。

分将问题分解为规模更小的子问题

治将规模更小的子问题逐个击破

合将已解决的子问题合并,最终得出原问题的解

比如一个数学问题,先将其拆分为三个比较短的表达式,然后算出答案,再将每个答案合并。

教师讲述:大数据处理的基本思想是统一的,但是正如“不同的锁需要不同的钥匙”,企业中不同的应用场景中的数据采用不同的计算模式,需要使用不同的大数据技术。

【大数据处理类型】

教师讲述:那接下来我们就来了解一下大数据中的三种锁,第一把锁是静态数据,所谓的静态数据,就是指在处理时已收集完成、在计算时不会发生改变的数据。

提问:根据静态数据的特征,你们能不能举出静态数据的处理实例呢?

回答:读取U盘数据、读取硬盘数据。

【Hadoop】

教师讲述:对于静态数据采用的是批处理计算,批处理就是指一批数据同时处理,其中常见的架构是Hadoop、Spark等。这节课我们主要来认识Hadoop。

教师讲述:假设硬盘读取速度永远满足要求,你的硬盘目前容量为1T,读取速度为100MB/s,这已经是非常快的速度了,要把硬盘数据全部刷一遍,要两个多小时,这也太可怕了。而Hadoop就是一个并行处理海量数据的工具,并行处理,就是结合我们之前说的大数据处理的基本思想,将读取硬盘数据的工作分成几份,比如说分成1024份,那么每份工作需要读取多少数据?

回答:1GB数据。

教师讲述:对,这1024个工作同时进行,读取速度为100MB/s,那么只需要1024/100=10.24s就足够了,时间大大缩短。

教师讲述:Hadoop诞生于大搜索应用,由于谷歌、Facebook等应用的搜索量过大、数据不方便快速处理才诞生了Hadoop。

提问:到底什么是Hadoop呢?

【学生活动】让学生自己翻阅教材P115P117,想一想Hadoop究竟是什么?

讲述:Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据批处理计算。国外有很多企业正在使用Hadoop,它的主要架构可以分为三部分:分布式文件系统、分布式数据库、分布式并行计算模型。

【分布式文件系统HDFS】

教师讲述:分布式文件系统又叫做HDFS,主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中,并用分布式系统进行管理。常见应用比如网盘、云盘等。

【分布式数据库HBase】

教师讲述:分布式数据库又叫做HBase,是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。主要用来存储非结构化数据和半结构化数据,具有良好的横向扩展能力,可管理PB级的大数据。

【分布式并行计算模型MapReduce】

教师讲述:分布式并行计算模型又叫做MapReduce,由Map(映射)和Reduce(归纳)组成,自动实现分布式并行计算,核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。

教师讲述:这三个系统主要是针对数据存储、管理和处理分析,我们需要明确它们各自的功能。

【流计算】

教师讲述:大数据处理的第二把锁就是流数据,流数据是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值会随之降低,所以可以通过实时分析计算来得到更有价值的分析结果。

提问:这反映了信息的什么特性?

回答:时效性。

提问:那同学们能不能根据流数据的概念举例流数据处理的实例呢?

回答:利用百度地图导航、打车软件

您可能关注的文档

文档评论(0)

zxuli + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档