- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第PAGE4页
Hadoop平台搭建与应用
教案
NO.1
教师姓名
授课班级
授课形式
理实一体化
授课时间
年月日第周
授课时数
10
授课章节名称
任务1.1认知大数据,完成系统环境搭建
教学目的
(1)熟悉大数据的概念和特征。
(2)熟悉大数据分析流程和工具使用。
(3)学会CentOS的安装。
(4)学会CentOS中常用命令的使用。
教
材
分
析
教学重点
CentOS中常用命令的使用
教学难点
CentOS中常用命令的使用
更新、
补充、
删节内容
课外作业
熟练Hadoop的安装与配置
教学过程
教学提示
知识准备
1.大数据背景知识
大数据是时下IT界最炙手可热的名词,在全球引领了新一轮数据技术革命的浪潮,通过2012年的蓄势待发,2013年被称为“世界大数据元年”,标志着世界正式步入了大数据时代。Hadoop从某些方面来讲,与大数据结合紧密,它最擅长的就是高效地处理海量规模的数据,它就是为大数据而生的。
想要系统地认知大数据,必须要全面而细致地分解它,接下来将从3个层面展开介绍,如图1-1所示。
第1个层面是理论。理论是认知的必经途径,也是被广泛认同和传播的基线。
第2个层面是技术。技术是大数据价值体现的手段和前进的基石。
第3个层面是实践,实践是大数据的最终价值体现。人们分别从互联网的大数据、政府的大数据、企业的大数据和个人的大数据4个方面出发,去描绘大数据已经展现的美好景象及即将实现的蓝图。
(1)从理论层面认知大数据
大数据的特征定义。最早提出大数据时代到来的是麦肯锡咨询公司。它是美国首屈一指的咨询公司,是研究大数据的先驱。业界(IBM最早定义)将大数据的特征归纳为4个V。
a.数据体量巨大(Volume):大数据的起始计量单位至少是PB(1000TB)、EB(106TB)或ZB(109TB)。
b.数据类型繁多(Variety):如网络日志、视频、图片、地理位置信息等。
c.价值密度低,商业价值高(Value):由于数据采集的不及时,数据样本的不全面、数据不连续等,可能会导致数据失真,但当数据量达到一定规模时,可以通过更多的数据实现更真实全面的反馈。
d.处理速度快(Velocity):大数据处理对处理速度有较高要求,一般要在秒级时间范围内给出分析结果,时间太长就失去了价值,这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。
(2)从技术层面认知大数据
(3)从实践层面认知大数据
2.大数据处理流程
具体的大数据处理方法有很多,根据长时间的实践,可以总结出一个基本的大数据处理流程。整个处理流程可以概括为4步,分别是采集、导入和预处理、统计与分析、挖掘。
3.大数据分析工具
(1)Hadoop
Hadoop是一个能够对大量数据进行分布式处理的软件框架,其以一种可靠、高效、可伸缩的方式进行数据处理。
=1\*GB3①HDFS(Hadoop分布式文件系统):Hadoop的HDFS是Hadoop体系中数据存储管理的基础。
=2\*GB3②MapReduce(分布式计算框架):MapReduce是一种计算模型,用于进行大数据量的计算。
=3\*GB3③Hive(基于Hadoop的数据仓库):Hive定义了一种类似SQL的查询语言,将SQL转换为MapReduce任务在Hadoop上执行。
=4\*GB3④HBase(分布式列存数据库):HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。
=5\*GB3⑤ZooKeeper(分布式协作服务):其用于解决分布式环境下的数据管理问题,主要是统一命名、同步状态、管理集群、同步配置等。
=6\*GB3⑥Sqoop(数据同步工具):Sqoop是SQL-to-Hadoop的缩写,主要用于在传统数据库和Hadoop之间传输数据。
=7\*GB3⑦Pig(基于Hadoop的数据流系统):Pig的设计动机是提供一种基于MapReduce的Ad-Hoc(计算在query时发生)数据分析工具。
=8\*GB3⑧Flume(日志收集工具):Flume是Cloudera开源的日志收集系统,具有分布式、高可靠、高容错、易于定制和扩展的特点。
=9\*GB3⑨
您可能关注的文档
- Hadoop平台搭建与应用(第2版)(微课版)-课程标准 .doc
- Hadoop平台搭建与应用(第2版)(微课版)-教案 项目1 认识大数据.doc
- Hadoop平台搭建与应用(第2版)(微课版)-教案 项目2 Hive环境搭建与基本操作.doc
- Hadoop平台搭建与应用(第2版)(微课版)-教案 项目3 ZooKeeper环境搭建与应用 .doc
- Hadoop平台搭建与应用(第2版)(微课版)-教案 项目4 HBase环境搭建与基本操作.doc
- Hadoop平台搭建与应用(第2版)(微课版)-教案 项目5 Hadoop生态组件的安装与使用.doc
- Hadoop平台搭建与应用(第2版)(微课版)-教案 项目6 Hadoop HA集群搭建.doc
- Hadoop平台搭建与应用(第2版)(微课版)-教案 项目7 Ambari搭建与管理.doc
- Hadoop平台搭建与应用(第2版)(微课版)-教案 项目8 Hadoop平台应用综合案例.doc
- Hadoop平台搭建与应用(第2版)(微课版)-课后习题及答案 项目1 .docx
- 北师大版小学数学三年级上册《寄书》教学设计.docx
- 统编版(部编版)语文二年级上册《雪孩子》教学设计.docx
- 统编版(部编版)语文二年级上册《八角楼上》教学设计.docx
- 北师大版小学数学三年级上册《长方形周长》教学设计.docx
- 北师大版小学数学三年级上册《丰收了》教学设计.docx
- 统编版(部编版)语文二年级上册《夜宿山寺》教学设计.docx
- 统编版(部编版)语文二年级上册《风娃娃》教学设计.docx
- 统编版(部编版)语文二年级上册《朱德的扁担》教学设计.docx
- 统编版(部编版)语文二年级上册《难忘的泼水节》教学设计.docx
- 统编版(部编版)语文二年级上册《纸船和风筝》教学设计.docx
最近下载
- 米LED路灯灯杆检验报告.pdf VIP
- 临床诊疗指南肾脏病学分册_全文.pdf
- 中小学校园防疫科普讲义中小学防控诺如病毒主题班会课件.pptx VIP
- 安永-中国房地产行业2023年业绩概览及新质态下房地产行业发展新趋势.pdf VIP
- Nikon 尼康微型单电相机 Z系列Z 6 参考手册(完整说明书)Z7Z6RM_(Sc)05.pdf
- 2024年义务教育新课标新教材培训学习PPT课件:小学语文新教材内容整体变化解读.pptx
- 上海市高一信息技术上学期期中试题.docx
- 支架和钢管柱贝雷梁现浇简支箱梁施工安全质量控制要点.pptx VIP
- 名著导读《朝花夕拾》课件(共47张ppt).pptx VIP
- 商用车行业专题:全球客车潜力可观,中国车企大有可为.docx VIP
文档评论(0)