高教社唐九阳大数据技术基础教学课件第4章计算与处理.pptxVIP

下载本文档

4
0
约5.92千字
约 22页
2023-03-02 发布于广东
举报
版权申诉

高教社唐九阳大数据技术基础教学课件第4章计算与处理.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据技术基础第四章计算与处理内容大纲批处理概念与关键框架批处理到流计算的演变图计算概念与核心技术交互式分析案例分析批处理概念批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时，必须将数据集作为一个整体加以处理，而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据能维持自己的状态。但大量数据的处理需要付出大量时间，因此批处理不适合对处理时间要求较高的场合。Apache Hadoop及其MapReduce处理引擎提供了一套久经考验的批处理模型，最适合处理对时间要求不高的非常大规模数据集。批处理关键框架MapReduceMapReduce是一个最先由Google提出的分而治之思想设计出来的分布式计算软件构架，它可以支持大数据量的分布式处理。这个架构最初起源于函数式程式的Map和Reduce两个函数，简单来说，在函数式语言里，Map表示对一张列表（List）中的每个元素进行计算，Reduce表示对一张列表中的每个元素进行迭代计算。但MapReduce磁盘读/写速度比较慢，这也是它的缺点。MapReduce流程图批处理关键框架SparkSpark是一个发源于美国加利福尼亚大学伯克利分校AMPLab的集群计算平台。它立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的“全能”。其设计的是一个基于内存的分布式处理软件，目标是取代MapReduce。Spark与Hadoop对比：Spark的中间数据存放在内存中，对于迭代运算而言效率更高。Spark更适合迭代运算比较多的数据挖掘和机器学习运算，因为在Spark里有RDD的抽象。Spark比Hadoop更通用。Spark提供的数据集操作类型有很多，而Hadoop只提供了Map和Reduce两种操作。容错性。在分布式数据集计算时通过Checkpoint 来实现容错。可用性。Spark通过提供丰富的Scala、Java、python API及交互式Shell来提高可用性。批处理关键框架Spark的基本概念RDD：Resilient Distributed Dataset，弹性分布式数据集Operation：作用于RDD的各种操作，包括Transformation和ActionJob:作业，一个Job包含多个RDD及作用于相应RDD上的各种Operationstage：一个作业分为多个阶段Partition:数据分区，一个RDD中的数据可以分成多个不同的区DAG：Directed Acycle Graph，有向无环图，反映RDD之间的依赖关系Narrow Dependency：窄依赖，子RDD依赖于父RDD中固定的Data PartitionWide Dependency：宽依赖，子RDD对父RDD中的所有Data partition都有依赖Caching Management:缓存管理，对RDD的中间计算结果进行缓存管理，以加快整体的处理速度批处理到流计算的演变流处理系统会对随时进入系统的数据进行计算。相比批处理模式，这是一种截然不同的处理方式。流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作。流处理中的数据集是“无边界”的，这就产生了几个重要的影响：完整数据集只能代表截至目前已经进入到系统中的数据总量。工作数据集也许更相关，在特定时间只能代表某个单一数据项。处理工作是基于事件的，除非明确停止否则没有“尽头”。处理结果立刻可用，并会随着新数据的抵达继续更新。典型流计算平台StormStorm是Twitter开源的一个分布式实时数据处理系统。Storm对于实时计算的意义类似于Hadoop对于批处理的意义我们都知道，根据Google MapReduce来实现的Hadoop 为我们提供了Map、Reduce原语，使批处理程序变得非常简单和优美。Strom的与Hadoop的对比?HadoopStorm系统角色JobTrackerNimbusTaskTrackerSupervisorChildWorker应用名称JobTopology组件接口Mapper/ReducerSpout/BoIt典型流计算平台Spark Streaming这是一种用于将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark，也就是把Spark Streaming的输入数据按照BatchSize（如1秒）分成一段一段的数据（Discretized Stream，DStream），每一段数据都转换成Spark中的RDD（Resilient Distributed Dataset），然后将Spark streaming中对DStream的Transformation操作转换为针对Spark中对RDD的Transform

您可能关注的文档

文档评论（0）

allen734901 + 关注: 实名认证

文档贡献者

副教授持证人

知识共享

咨询Ta 进入空间

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

更多 >

高教社唐九阳大数据技术基础教学课件第4章计算与处理.pptxVIP