Spark大数据分析实务课件项目2 Spark大数据环境安装搭建.pptx

下载文档

2
0
约2.99万字
约 192页
2024-07-09 发布于福建
举报
版权申诉
保障服务

Spark大数据分析实务课件项目2 Spark大数据环境安装搭建.pptx

1、本文档共192页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Spark大数据环境安装搭建知识准备

教学目标知识目标了解Hadoop框架的发展历程、特点、生态系统、应用场景。了解Hive的特点、应用场景、与关系型数据库的区别。了解Spark的发展历程、特点、生态系统、应用场景。熟悉Hadoop框架和Spark的架构组成。

教学目标技能目标能够理解Hadoop、Hive、Spark组件的作用。能够完成Hadoop集群、Hive和Spark的搭建与配置。素质目标具备团队合作精神，能够与小组成员协商合作，共同完成集群搭建任务。具有良好的学习能力，能够借助大数据平台搜集信息。具有独立思考和创新能力，能够掌握相关知识点并完成项目任务。

思维导图

项目背景数据技术蓬勃发展，基于开源技术的Hadoop在行业中应用广泛。Hadoop的三大组件之一的HDFS虽然能分布式存储大规模数据，但其不提供数据分析功能，而Hadoop的生态组件Hive提供了类似于SQL的查询接口，使得对存储好的数据进行查询和分析更加方便，无须学习复杂的MapReduce编程，Hive支持对数据进行结构化定义，数据模型灵活性更好，而且，Hive实际上是将数据存储在HDFS之上，同样满足大规模数据的分布式存储需求。Hadoop最主要的缺陷是其三大组件之一的MapReduce计算模型延迟过高，无法胜任实时、快速计算的需求。Spark的诞生弥补了MapReduce的缺陷。

项目背景Spark拥有MapReduce所具有的优点，但不同于MapReduce，Spark的中间输出结果可以保存在内存中，从而大大减少了读写HDFS的次数，因此Spark能更好地适用于数据挖掘与机器学习中需要迭代的算法。广告数据监测公司通过Spark大数据环境，能够较好地完成广告流量违规检测的数据探索、处理与模型构建。

项目目标完成Spark大数据环境的安装搭建，为后续实现广告流量检测作弊识别奠定好环境基础。

目标分析安装搭建3个节点的Hadoop集群，提供Hadoop大数据平台。安装搭建Hive，提供数据存储功能。安装搭建3个节点的Spark集群，提供数据分析功能。

Hadoop大数据框架Hive数据仓库工具Spark分布式计算框架

Hadoop大数据框架大数据时代下，针对大数据处理的新技术也在不断地开发和运用中，并逐渐成为数据处理挖掘行业广泛使用的主流技术之一。在大数据时代，Hadoop作为处理大数据的分布式存储和计算框架，Hadoop及其生态系统组件在国内外大、中、小型企业中已得到了广泛应用。学习大数据技术，掌握大数据组件的使用是从事大数据行业工作必不可少的一步。本节将介绍Hadoop的简介、Hadoop的发展历程、Hadoop的特点和Hadoop的生态系统，并对Hadoop应用场景进行简单的介绍。

Hadoop简介随着移动设备的广泛使用和互联网的快速发展，数据的增量和存量快速增加，硬件发展跟不上数据发展，单机设备很多时候已经无法处理数据规模达到TB甚至PB级别的数据。如果一头牛拉不动货物，那么显然找几头牛一起拉会比培育一头更强壮的牛容易。同理，对于单机无法解决的问题，综合利用多个普通机器要比打造一台超级计算机更加可行，这就是Hadoop的设计思想。

Hadoop简介Hadoop是一个由Apache基金会开发的，可靠的、可扩展的、用于分布式计算的分布式系统基础架构和开发开源软件。ApacheHadoop软件库是一个框架，允许使用简单的编程模型在计算机集群中对大规模数据集进行分布式处理，目的是从单一的服务器扩展到成千上万的机器，将集群部署在多台机器，每个机器提供本地计算和存储，并且将存储的数据备份在多个节点，由此提升集群的可用性，而不是通过机器的硬件提升集群的可用性。当一个机器宕机时，其他节点依然可以提供备份数据和计算服务。

Hadoop简介Hadoop框架最核心的设计是Hadoop分布式文件系统（HadoopDistributedFileSystem，HDFS）和MapReduce。HDFS是可扩展、高容错、高性能的分布式文件系统，负责数据的分布式存储和备份，文件写入后只能读取不能修改。MapReduce是分布式计算框架，包含Map（映射）和Reduce（规约）两个过程。

Hadoop的发展历程Hadoop是由ApacheLucence创始人道·卡廷创建的，Lucence是一个应用广泛的文本搜索系统库。Hadoop起源于开源的网络搜索引擎ApacheNutch，Hadoop本身也是Lucence项目的一部分。Hadoop的发展历程如下图。

Hadoop的发展历程Hadoop的发展历程可以简要概括为以下6个阶段。2004年，Hadoop的起源：Hadoop最初是由道·卡廷与其好友迈克·卡法雷拉在Yahoo公司开发的，目的是处理大规模的数据集。他们基于Go

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Spark大数据分析实务课件项目2 Spark大数据环境安装搭建.pptx