《Spark技术》_《Spark技术》_项目一 .pptxVIP

下载本文档

1
0
约4.3千字
约 22页
2025-12-31 发布于广东
举报
版权申诉

《Spark技术》_《Spark技术》_项目一 .pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

项目一初识Spark技术延时符

序言02延时符项目描述对采集到的数据进行分析处理，可以获取有价值的信息。那么你知道数据分为哪些类型吗？不同的数据采用什么技术进行分析处理呢？本书介绍Spark技术分析处理数据。项目分析近年来，大数据分析一词成了IT行业的流行术语，大数据分析即将大量的的数据通过各种技术进行交叉分析，从而挖掘出数据背后的价值，甚至可以预见未来。要想通过大量的数据分析出数据的价值，关键在于收集数据、存储数据及分析数据。

0301OPTION02OPTION数据处理系统实时数据处理目录页延时符

数据处理系统1.数据存储技术2.数据分析技术3.批数据和实时数据4.数据价值挖掘04任务1

05早期的数据存储技术美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据,发明了一台电动器来读取卡片上的洞数,这台设备使美国用了1年时间就完成了原本需要耗时8年的人口普查工作。最早的数据存储技术就是利用穿孔卡片来完成的。

06数据库技术数据处理早期互联网时代互联网企业很少，主要采用关系型数据库，当时全世界的数据库市场几乎被Oracle、IBM的DB2、Microsoft的SQLServer垄断，其他数据库厂商市场份额比较小。互联网时代的数据是通过设备、服务器、应用自动产生，目前数据呈现出以指数级别增长，数据涵盖各行各业。促使了类似Hadoop大数据技术的诞生，如Hadoop生态圈中的HBaesNoSQL分布式数据库、Hive数据仓库。

07大数据存储技术共储技术共性硬件基于服务器操作系统主要是Linux存储基于服务器自身的磁盘架构基于大规模分布式计算和极高的横向扩展能力05提供故障容错及数据高可用保证机制

08大数据存储技术路线3.基于Hadoop生态圈技术扩展和封装1.大数据一体机2.采用MPP架构的数据库集群基于Hadoop生态技术衍生出来的，主要应对传统关系型数据库较难处理的数据和场景。MPP(MassivelyParallelProcessing，大规模并行处理)数据库集群重点面向行业大数据，具有高性能和可扩展的特点。软硬件结合的产品，由一组集成的服务器、存储设备、操作系统、数据库管理系统组成。具有良好的稳定性和纵向扩展能力。大数据处理技术进入了新的阶段，目前大数据存储技术路线最典型的有三种。

09数据分析技术大数据分析技术：通过对规模巨大的数据进行分析，挖掘出大规模数据中隐藏的价值信息，为社会经济活动提供依据，提高各个领域的运行效率。经典案例：谷歌与流感啤酒与尿布

10数据分析技术区别于传统的数据处理流程，大数据处理的是大量的、非结构化的数据。为保证数据处理速度，需要在并行的分布式系统中处理数据。目前，Hadoop、MapReduce和Spark等分布式处理方式是大数据处理过程中的普遍使用技术。

11Hadoop生态圈HDFS分布式文件存储系统是一个数据管理系统，是数据分析的源头。MapReduce是一个大规模并行的数据计算框架，具有很强的分布式计算能力。用户可以使用这些组件在Hadoop上开发和运行处理海量数据的应用程序，以满足大数据处理中的各种场景需要。Hadoop生态圈中提供了很多解决大数据问题的组件，如图所示，组件包括数据存储、数据集成、数据处理和数据分析。Hadoop生态圈

12Hadoop特性：低成本、高可靠性、高扩展、高容错。但MapReduce只适用于离线数据处理，在实时性处理需求出现时毫无用处。支持在线处理数据的Storm、CloudarImpala及支持迭代计算的Spark等，以及资源统一管理调度系统如ApacheMesos、Hadoop生态圈中的ApacheYarn等。基于性能、兼容性、数据类型等方面的原因，大数据分析技术不断更新，除了上面提供到的各种数据处理工具之外，还有Phoenix、ApacheAccumulo、ApacheDirll等其他开源解决方案，预计未来相当长的一段时间内，主流的Hadoop平台将与各种新的计算模式和系统共存，并相互兼容融合，形成新一代的大数据处理系统和平台。实时处理技术

13批数据和实时数据批数据：又称为历史数据，是在集群中积累的数据。流式数据：又称为实时数据，是当前系统即时产生的数据。批数据和实时数据在处理延时方面还有很大差别:基于历史数据的复杂的业务查询时间一般允许在数十分钟到数小时之间，基于历史数据的交互式SQL查询时间一般允许数十秒到数分钟之间;基于实时数据流的数据处理延迟度要求在