Spark大数据分析与实战（第二版）课件项目3 Spark RDD分析交通违章记录.pptx

下载文档

0
0
约1.29万字
约 56页
2025-04-19 发布于山东
举报
版权申诉
保障服务

Spark大数据分析与实战（第二版）课件项目3 Spark RDD分析交通违章记录.pptx

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据分析与实战项目3SparkRDD分析交通违章记录

要求使用SparkRDD技术，完成交通违章数据的分析，为相关部门提供各类信息支持。为加强交通管理、减少交通违章行为，某地部署了数百组交通监控设备，用于采集辖区内各类交通违法行为；经数据抽取与整理，得到3张数据表格：违章行为记录表、车主信息表、违章代码表。情境导入Spark

项目分解Spark序号任务任务说明1根据交通违章数据创建RDD将3个交通违章数据文件（txt格式）上传到HDFS特定目录；读取文件，创建弹性分布式数据集RDD。2找出扣分最多的交通违章条目根据违章代码表（violation.txt），找出其中扣分最多的违章条目（Top3）。3查找某车辆的违章记录根据本地违章行为记录表（record.txt）及邻市违章行为记录表（recordCityB.txt），找出某车辆在两地区的所有违章记录。4找出违章3次以上车辆统计各车辆的违章次数，找出违章次数大于3次的车牌号，并打印相关信息。5打印累积扣12分以上车辆信息根据违章数据文件，找出交通违章扣12分以上的车牌号；进而结合车主信息表，找出对应的车主姓名、手机号等信息，并模拟发短息提醒。6将处理结果写入文件整合违章数据，将“违章日期、车牌号、扣分数、罚款金额、违章内容”等5项信息写入到TSV文件中。

掌握RDD元素查看及常见的转换、排序、过滤、去重等操作。了解RDD原理，熟悉RDD的创建方法。能否根据需要将RDD计算的结果输出到文件中。123学习目标Spark

项目3SparkRDD分析车辆违章记录Spark任务1根据交通违章数据创建RDD找出扣分最高的违章条目查找某车辆的违章记录任务2任务3查找违章3次以上的车辆任务4找出累计扣12分以上的车辆任务5将处理结果存储到外部文件中任务6

任务分析SparkRDD是SparkCore的核心数据抽象，是进行Spark学习的基础。而使用SparkRDD进行数据分析，首先面临的问题是如何创建RDD。本任务要求读取HDFS分布式文件系统中的交通违章数据文件，生成RDD并输出相关信息。

认识RDDSparkRDD（弹性分布式数据集）就是一个分布在集群多节点中存放数据的集合；物理上一个数据集可能分散于集群多个节点，但逻辑上仍然是一个整体（即RDD），数据处理人员只需对这个整体进行处理，而无需关注底层逻辑与实现方法。RDD可以看做是Spark对具体数据的抽象（封装），本质上是一个只读的、分区的记录集合；每个分区都是一个数据集片段，可由一个任务来执行。

认识RDDSparkSparkRDD的计算过程可以简单抽象为：创建RDD（makeRDD）、转换（Transformation）和行动（Action）3个阶段。

由内存数据创建RDDSpark针对内存中的数据（List、Array、Tuple等），Spark提供了两个操作：parallelize和makeRDD，它们创建一个可并行计算的分布式数据集RDD。scalavalnums=List(1,2,3,4,5)//包含5个整数的列表scalavalnumsRDD=sc.parallelize(nums)//创建一个RDDscalavalpeople=List(李白,王之焕,韦应物,杜牧,元慎)scalavalpeopleRDD=sc.makeRDD(people,3)//创建RDD，含3个分区scalapeopleRDD.partitions.size//查看peoplesRDD的分区数量res3:Int=3

由外部存储生成RDDSpark在生产环境中，通常根据外部存储的数据文件生成RDD。Spark提供了textFile()方法，它可以读取外部文件中的数据来创建RDD。scalavalfileRDD=sc.textFile(file:///home/hadoop/data/guide.txt)scalafileRDD.count()//使用count方法查看RDD的元素数量res14:Long=4scalavalhdfsFileRDD=sc.textFile(hdfs://localhost:9000/user/hadoop/data/guide.txt)

相关知识小结SparkRDD是分布式数据集，是分布在多节点数据的抽象；内存数据创建RDD的方法：parallelize和makeRDD；Spark提供了textFile()方法，它可以读取外部文件中的数据来创建RDD。读取交通违章数据文件，生成RDD，并查看RDD分区数、元素数量。任务实施

项目3SparkRDD分析车辆违章记录Spark任务1根据交

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Spark大数据分析与实战（第二版）课件项目3 Spark RDD分析交通违章记录.pptx