- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark RDD介绍
1. 认识Spark及Spark RDD2. 掌握Python环境下RDD的操作3. 掌握向Spark传递函数
认识Spark1认识Spark RDD2RDD的转化操作及行动操作3向Spark传递函数及Map()的使用4
认识SparkSpark是一个用来实现快速而通用的集群计算的平台。 Spark适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合,在实际的数据分析过程中是很有意义的。不仅如此,Spark的这种特性还大大减轻了原先需要对各种平台分别管理的负担。 Spark所提供的借口非常丰富。除了提供基于Python、Java、Scala和SQL的简单易用的API以及内建的丰富的程序库以外,Spark还能和其他大数据工具密切配合使用。例如,Spark可以运行在Hadoop集群上,访问包括Cassandra在内的任意Hadoop数据源。
认识Spark RDDSpark RDD-Spar:对数据的核心抽象-弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序的对象集合(比如list和set)。创建出来hours,RDD支持两种类型的操作:转化操作(transformation)和行动操作(action)
RDD基础-Python中创建一个RDDlines=sc.textFile(“README.md”)
RDD转化操作RDD转化操作是返回新RDD的操作用Python实现filter()转化操作inputRDD=sc.textFile(“log.txt”)errorRDD=inputRDD.filter(lambda x:”error”in x)----------------------union的使用errorRDD=inputRDD.filter(lambda x:”error” in x)warningsRDD=inputRDD.filter(lambda x:”warning”in x)badLinesRDD=errorsRDD.union(warningRDD)
RDD谱系图inputRDDbadLinesRDDerrorsRDDwarningsRDDfilterfilterunion
行动操作print “Input had”+badLinesRDD.count()+”concerning lines”print “Here are 10 examples:”for line in badLinesRDD.take(10):print line
向Spark传递函数在Python中传递函数word=rdd.filter(lambda s:”error”in s)def containsError(s): return “error” in sword=rdd.filter(containsError)
Map()的使用Python版计算RDD中各值的平方nums=sc.parallelize([1,2,3,4])squared=nums.map(lambda x:x*x).collect()for num in squared: print “%i”%(num)inputRDD{1,2,3,4}Mapped RDD{1,4,9,16}Filtered RDD{2,3,4}map x=x*xfilter x=x!=1
1.认识Spark及Spark RDD2.RDD的转化操作及行动操作3.向Spark传递函数及Map()的使用
您可能关注的文档
最近下载
- 第20课 五四运动与中国共产党的诞生必修中外历史纲要上 (2).pptx VIP
- 久谦-中信产业基金第三方物流及快递投资目标筛选项目 v3.6-20120118.pptx VIP
- 《景观生态学》全套教学课件.ppt
- 幼儿园公开招聘教职员工简章.pdf
- 2023年财务分析题库完整版.doc
- CJJ∕T 135-2009 (2023年版) 透水水泥混凝土路面技术规程.pdf
- 第二章第五节 跨学科实践:制作隔音房间模型-人教版2024物理八年级上学期.pptx
- [股市论谈]53万打天下(53万实盘帐户天天更新).t
- 第9课 创新增才干-【中职专用】2024年中职思想政治《哲学与人生》金牌课件(高教版2023·基础模块).pptx VIP
- 纲要(上)第20课 五四运动与中国共产党的诞生课件(共23张PPT).pptx VIP
文档评论(0)