二零二三年优质公开课SparkRDD介绍.pptx

下载文档

0
0
约1.8千字
约 13页
2023-06-01 发布于安徽
举报
版权申诉
保障服务

二零二三年优质公开课SparkRDD介绍.pptx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Spark RDD介绍 1. 认识Spark及Spark RDD2. 掌握Python环境下RDD的操作3. 掌握向Spark传递函数认识Spark1认识Spark RDD2RDD的转化操作及行动操作3向Spark传递函数及Map()的使用4 认识SparkSpark是一个用来实现快速而通用的集群计算的平台。 Spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark的这种特性还大大减轻了原先需要对各种平台分别管理的负担。 Spark所提供的借口非常丰富。除了提供基于Python、Java、Scala和SQL的简单易用的API以及内建的丰富的程序库以外，Spark还能和其他大数据工具密切配合使用。例如，Spark可以运行在Hadoop集群上，访问包括Cassandra在内的任意Hadoop数据源。认识Spark RDDSpark RDD-Spar：对数据的核心抽象-弹性分布式数据集（Resilient Distributed Dataset,简称RDD）。RDD其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python、Java、Scala中任意类型的对象，甚至可以包含用户自定义的对象。用户可以使用两种方法创建RDD：读取一个外部数据集，或在驱动器程序里分发驱动器程序的对象集合（比如list和set）。创建出来hours，RDD支持两种类型的操作：转化操作(transformation)和行动操作（action） RDD基础-Python中创建一个RDDlines=sc.textFile(“README.md”) RDD转化操作RDD转化操作是返回新RDD的操作用Python实现filter()转化操作inputRDD=sc.textFile(“log.txt”)errorRDD=inputRDD.filter(lambda x:”error”in x)----------------------union的使用errorRDD=inputRDD.filter(lambda x:”error” in x)warningsRDD=inputRDD.filter(lambda x:”warning”in x)badLinesRDD=errorsRDD.union(warningRDD) RDD谱系图inputRDDbadLinesRDDerrorsRDDwarningsRDDfilterfilterunion 行动操作print “Input had”+badLinesRDD.count()+”concerning lines”print “Here are 10 examples:”for line in badLinesRDD.take(10):print line 向Spark传递函数在Python中传递函数word=rdd.filter(lambda s:”error”in s)def containsError(s): return “error” in sword=rdd.filter(containsError) Map()的使用Python版计算RDD中各值的平方nums=sc.parallelize([1,2,3,4])squared=nums.map(lambda x:x*x).collect()for num in squared: print “%i”%(num)inputRDD{1,2,3,4}Mapped RDD{1,4,9,16}Filtered RDD{2,3,4}map x=x*xfilter x=x!=1 1.认识Spark及Spark RDD2.RDD的转化操作及行动操作3.向Spark传递函数及Map()的使用

您可能关注的文档

文档评论（0）

中小学K12教育 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

二零二三年优质公开课SparkRDD介绍.pptx