Hadoop平台搭建与应用(米洪 第2版)(微课版)-教案全套 项目1--8 认识大数据 ---Hadoop平台应用综合案例.doc

Hadoop平台搭建与应用(米洪 第2版)(微课版)-教案全套 项目1--8 认识大数据 ---Hadoop平台应用综合案例.doc

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第PAGE4页

Hadoop平台搭建与应用

教案

NO.1

教师姓名

授课班级

授课形式

理实一体化

授课时间

年月日第周

授课时数

10

授课章节名称

任务1.1认知大数据,完成系统环境搭建

教学目的

(1)熟悉大数据的概念和特征。

(2)熟悉大数据分析流程和工具使用。

(3)学会CentOS的安装。

(4)学会CentOS中常用命令的使用。

教学重点

CentOS中常用命令的使用

教学难点

CentOS中常用命令的使用

更新、

补充、

删节内容

课外作业

熟练Hadoop的安装与配置

教学过程

教学提示

知识准备

1.大数据背景知识

大数据是时下IT界最炙手可热的名词,在全球引领了新一轮数据技术革命的浪潮,通过2012年的蓄势待发,2013年被称为“世界大数据元年”,标志着世界正式步入了大数据时代。Hadoop从某些方面来讲,与大数据结合紧密,它最擅长的就是高效地处理海量规模的数据,它就是为大数据而生的。

想要系统地认知大数据,必须要全面而细致地分解它,接下来将从3个层面展开介绍,如图1-1所示。

第1个层面是理论。理论是认知的必经途径,也是被广泛认同和传播的基线。

第2个层面是技术。技术是大数据价值体现的手段和前进的基石。

第3个层面是实践,实践是大数据的最终价值体现。人们分别从互联网的大数据、政府的大数据、企业的大数据和个人的大数据4个方面出发,去描绘大数据已经展现的美好景象及即将实现的蓝图。

(1)从理论层面认知大数据

大数据的特征定义。最早提出大数据时代到来的是麦肯锡咨询公司。它是美国首屈一指的咨询公司,是研究大数据的先驱。业界(IBM最早定义)将大数据的特征归纳为4个V。

a.数据体量巨大(Volume):大数据的起始计量单位至少是PB(1000TB)、EB(106TB)或ZB(109TB)。

b.数据类型繁多(Variety):如网络日志、视频、图片、地理位置信息等。

c.价值密度低,商业价值高(Value):由于数据采集的不及时,数据样本的不全面、数据不连续等,可能会导致数据失真,但当数据量达到一定规模时,可以通过更多的数据实现更真实全面的反馈。

d.处理速度快(Velocity):大数据处理对处理速度有较高要求,一般要在秒级时间范围内给出分析结果,时间太长就失去了价值,这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

(2)从技术层面认知大数据

(3)从实践层面认知大数据

2.大数据处理流程

具体的大数据处理方法有很多,根据长时间的实践,可以总结出一个基本的大数据处理流程。整个处理流程可以概括为4步,分别是采集、导入和预处理、统计与分析、挖掘。

3.大数据分析工具

(1)Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架,其以一种可靠、高效、可伸缩的方式进行数据处理。

=1\*GB3①HDFS(Hadoop分布式文件系统):Hadoop的HDFS是Hadoop体系中数据存储管理的基础。

=2\*GB3②MapReduce(分布式计算框架):MapReduce是一种计算模型,用于进行大数据量的计算。

=3\*GB3③Hive(基于Hadoop的数据仓库):Hive定义了一种类似SQL的查询语言,将SQL转换为MapReduce任务在Hadoop上执行。

=4\*GB3④HBase(分布式列存数据库):HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。

=5\*GB3⑤ZooKeeper(分布式协作服务):其用于解决分布式环境下的数据管理问题,主要是统一命名、同步状态、管理集群、同步配置等。

=6\*GB3⑥Sqoop(数据同步工具):Sqoop是SQL-to-Hadoop的缩写,主要用于在传统数据库和Hadoop之间传输数据。

=7\*GB3⑦Pig(基于Hadoop的数据流系统):Pig的设计动机是提供一种基于MapReduce的Ad-Hoc(计算在query时发生)数据分析工具。

=8\*GB3⑧Flume(日志收集工具):Flume是Cloudera开源的日志收集系统,具有分布式、高可靠、高容错、易于定制和扩展的特点。

=9\*GB3⑨

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档