- 1、本文档共56页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据分析与实战项目3SparkRDD分析交通违章记录
要求使用SparkRDD技术,完成交通违章数据的分析,为相关部门提供各类信息支持。为加强交通管理、减少交通违章行为,某地部署了数百组交通监控设备,用于采集辖区内各类交通违法行为;经数据抽取与整理,得到3张数据表格:违章行为记录表、车主信息表、违章代码表。情境导入Spark
项目分解Spark序号任务任务说明1根据交通违章数据创建RDD将3个交通违章数据文件(txt格式)上传到HDFS特定目录;读取文件,创建弹性分布式数据集RDD。2找出扣分最多的交通违章条目根据违章代码表(violation.txt),找出其中扣分最多的违章条目(Top3)。3查找某车辆的违章记录根据本地违章行为记录表(record.txt)及邻市违章行为记录表(recordCityB.txt),找出某车辆在两地区的所有违章记录。4找出违章3次以上车辆统计各车辆的违章次数,找出违章次数大于3次的车牌号,并打印相关信息。5打印累积扣12分以上车辆信息根据违章数据文件,找出交通违章扣12分以上的车牌号;进而结合车主信息表,找出对应的车主姓名、手机号等信息,并模拟发短息提醒。6将处理结果写入文件整合违章数据,将“违章日期、车牌号、扣分数、罚款金额、违章内容”等5项信息写入到TSV文件中。
掌握RDD元素查看及常见的转换、排序、过滤、去重等操作。了解RDD原理,熟悉RDD的创建方法。能否根据需要将RDD计算的结果输出到文件中。123学习目标Spark
项目3SparkRDD分析车辆违章记录Spark任务1根据交通违章数据创建RDD找出扣分最高的违章条目查找某车辆的违章记录任务2任务3查找违章3次以上的车辆任务4找出累计扣12分以上的车辆任务5将处理结果存储到外部文件中任务6
任务分析SparkRDD是SparkCore的核心数据抽象,是进行Spark学习的基础。而使用SparkRDD进行数据分析,首先面临的问题是如何创建RDD。本任务要求读取HDFS分布式文件系统中的交通违章数据文件,生成RDD并输出相关信息。
认识RDDSparkRDD(弹性分布式数据集)就是一个分布在集群多节点中存放数据的集合;物理上一个数据集可能分散于集群多个节点,但逻辑上仍然是一个整体(即RDD),数据处理人员只需对这个整体进行处理,而无需关注底层逻辑与实现方法。RDD可以看做是Spark对具体数据的抽象(封装),本质上是一个只读的、分区的记录集合;每个分区都是一个数据集片段,可由一个任务来执行。
认识RDDSparkSparkRDD的计算过程可以简单抽象为:创建RDD(makeRDD)、转换(Transformation)和行动(Action)3个阶段。
由内存数据创建RDDSpark针对内存中的数据(List、Array、Tuple等),Spark提供了两个操作:parallelize和makeRDD,它们创建一个可并行计算的分布式数据集RDD。scalavalnums=List(1,2,3,4,5)//包含5个整数的列表scalavalnumsRDD=sc.parallelize(nums)//创建一个RDDscalavalpeople=List(李白,王之焕,韦应物,杜牧,元慎)scalavalpeopleRDD=sc.makeRDD(people,3)//创建RDD,含3个分区scalapeopleRDD.partitions.size//查看peoplesRDD的分区数量res3:Int=3
由外部存储生成RDDSpark在生产环境中,通常根据外部存储的数据文件生成RDD。Spark提供了textFile()方法,它可以读取外部文件中的数据来创建RDD。scalavalfileRDD=sc.textFile(file:///home/hadoop/data/guide.txt)scalafileRDD.count()//使用count方法查看RDD的元素数量res14:Long=4scalavalhdfsFileRDD=sc.textFile(hdfs://localhost:9000/user/hadoop/data/guide.txt)
相关知识小结SparkRDD是分布式数据集,是分布在多节点数据的抽象;内存数据创建RDD的方法:parallelize和makeRDD;Spark提供了textFile()方法,它可以读取外部文件中的数据来创建RDD。读取交通违章数据文件,生成RDD,并查看RDD分区数、元素数量。任务实施
项目3SparkRDD分析车辆违章记录Spark任务1根据交
您可能关注的文档
- Spark大数据分析与实战(第二版) 项目2 教案.docx
- Spark大数据分析与实战(第二版) 项目3 教案.docx
- Spark大数据分析与实战(第二版)考试样题 Spark大数据技术A卷.doc
- Spark大数据分析与实战(第二版)考试样题 Spark大数据技术B卷.doc
- Spark大数据分析与实战(第二版) 课程标准 .docx
- Spark大数据分析与实战(第二版) 课件 项目4 IDEA下分析碳排放数据.pptx
- Spark大数据分析与实战(第二版) 课件 项目1 搭建Spark开发环境.pptx
- Spark大数据分析与实战(第二版) 课件 项目2 Scala程序处理新能源汽车销售数据.pptx
- 谈谈加快建设现代化产业体系的重大任务举措.pptx
- 网络安全和信息化工作领导小组.pptx
文档评论(0)