4.1选择大数据处理方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE

PAGE4

《大数据应用技术基础》教学设计

课题

选择大数据处理方法

课型

理论

班级

教师

课时

2

教学分析

教材分析

教师备课时填写

学情分析

教师备课时填写

教学目标

知识

1.能描述大数据处理数据的流程;

2.能说出大数据处理数据的几种方式;

3.能说出大数据的几种离线处理工具及其特点;

4.能说出大数据的几种在线处理工具及特点。

技能

能根据数据的具体情况选择具体的数据处理方式

素养

1.培养关注行业前沿技术发展的意识;

2.培养大数据应用意识。

教学重点

大数据离线及在线处理工具及特点

教学难点

能根据数据的具体情况选择具体的数据处理方式

教学方法

讲授法、讨论法

教学环境

软件环境:CentOS7操作系统

硬件环境:多媒体教室或软件实训室,计算机

教学资源:PPT、微课视频

教学反思

教师课后填写

教学过程

教学环节

教师活动

学生活动

新课导入

(5分钟)

1.你能列举出生活中使用大数据的案例吗?

2.你知道大数据分析有哪两种分析方式吗?

3.你知道有哪些工具可能对大数据进行离线处理吗?

你知道有哪些工具可能对大数据进行离线处理吗?

5.你知道对大数据处理有哪些流程吗?

讨论

思考分析

目标展示

(5分钟)

PPT展示本课题要完成的目标并适当解说

观看

了解

新课教学

(60分钟)

活动一大数据处理流程(30分钟)

一、大数据处理流程

1.列举生活中的大数据处理案例

问题1:请列举生活中的大数据处理案例?这些案例带来了哪些便捷?

问题2:处理的数据从何而来?你有过处理大量数据的经历吗?

问题3:你处理大数据时用到了哪些工具呢?

问题4:你处理大数据时,从获取数据到得到有效数据,经过了哪些过程呢?

2.大数据处理流程

数据采集:收集需要处理的数据,一是从网络上采集数据,二是从本地采集数据,采集到的数据多为非结构化的数据。

数据清洗:清洗脏数据,包含检查数据的一致性、处理无效值和缺失值,常用方法是丢弃部分数据、补全缺失数据、真值转换数据。

数据存储:将数据存储到数据仓库中,以便后期数据分析时使用。

数据据分析:使用分类、回归、聚类等数据分析分法对数据进行分析。

数据可视化:展现数据处理后的结果,可以使用表格、图表(常用)来展现数据。

二、大数据处理方式

1.离线数据处理

离线数据处理是基于硬盘的数据存储处理,即先将数据存储在数据仓库中,然后在固定的时间对数据进行集中批量处理。

2.在线数据处理

在线数据处理即实时数据处理,是基于内存的流式处理。在线数据处理是对产生的实时数据进行处理,要求数据处理组件在实时处理方面的能力非常强。实时数据处理主要用在时效性要求非常高的行业,如证券数据处理、电商数据处理、银行数据处理、预警监控类数据处理等。

问题:根据大数据处理的方式,你能分别列举出使用离线数据处理和在线数据处理的案例吗?

三、离线数据处理与在线数据处理的优缺点

1.离线数据处理的优缺点和应用场景

优点

缺点

应用场景

数据准确性高

吞吐量大

计算资源成本较低

数据时效性较差

计算周期较长

离线数据仓库建设

历史数据处理

财务数据处理

用户留存处理

……

2.在线数据处理的优缺点和应用场景

优点

特点

应用场景

数据时效性强

数据处理速度快

数据准确性较差

计算资源消耗大

时效性要求高的行业

实时个性化推荐

实时监控

实时场景营销

……

思考

讨论

勾划重点

笔记

笔记

讨论完成

活动二大数据处理工具(30分钟)

一、大数据离线处理工具

问题1:你知道哪些离线数据处理工具?

做一做:请查询并分析MapReduce、Sparkcore、FlinkDataset这几个工具功能、特点及工作的流程。

(一)MapReduce

MapReduce是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。它主要包含“Map(映射)”和“Reduce(归约)”两个过程。

(1)MapReduce的主要功能

①数据划分和计算任务调度

②数据/代码互定位

③系统优化

④出错检测和恢复

(2)MapReduce的技术特征

①可扩展

②具备容错机制

③数据迁移

④顺序处理数据

⑤隐藏系统层细节

(二)SparkCore

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎,SparkCore是Spark的核心与基础,实现了Spark的基本功能,包含任务调度、内存管理、错误恢复与存储系统交互等模块。SparkCore主要有SparkContext、存储体系、计算引擎、部署模式4个功能板块。

(1)SparkCore的主要功能

①SparkContext:每一个Spark应用都是SparkContext实例,一个SparkConte

文档评论(0)

zs521 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档