Spark大数据分析与实战(第二版)考试样题 Spark大数据技术B卷.doc

Spark大数据分析与实战(第二版)考试样题 Spark大数据技术B卷.doc

Spark大数据技术试卷B

第PAGE1页共NUMPAGES4页

一、选择题(5小题,共15分),本题得分【】1、关于

一、选择题(5小题,共15分),本题得分【】

1、关于Scala下列说法错误的是()

A函数式编程语言B面向对象程序设计语言

C运行在JVM上D一种低级语言

2.以下哪个方法可以正确的计算数组a的长度()

A.count()B.take(1)C.tail()D.length()

3.关于RDD,不正确的是()

A可以分区B可修改C惰性计算D可持久化

4下面关于List的定义不正确的是()

Avallist=List(0.1,0.2,0.3)Bvallist=List(“hello”,“new”)

Cvallist:String=List(“a”,“b”)Dvallist=List[](1,2,3)

郑述招

密封线

班内序号

考生姓名

学号

班级

试室号

注意:密封线内不要答题密封线外不要写姓名、学号、班级、违者试卷作零分处理

出卷教师:

***************************学院

2023-2024学年第1学期期末

Spark大数据技术试卷B卷

(考试班级:22级大数据开发班)

(时间:120分钟|满分:100分)

题号

总成绩

评卷人

得分

5以下关于Scala变量的定义不正确的是()

A、valwords:String=”hello”Bvalmum=12

C、varnum:String=NoneDvalapple:Double=2

二、SparkRDD编程(共30分),本题得分【】

一个整数列3、10、5、6、8、2、6、5

(1)生成一个RDD(命名为rdd1)

(2)该rdd1元素乘以2,得到新的RDD(命名为rdd2)

(3)新rdd2去重,得到新的RDD(命名为rdd3)

(4)rdd2中大于10的元素,并逐项打印输出,输出格式为:Elementisbiggerthan10。(Element表示元素的值,如20、12、16等)

(5)求rdd2所有元素的和

(6)找出rdd2中,最大的3个元素

三、SparkSQL编程(共35分),本题得分【】

1.在SparkShell中完成下列操作:

(1)由student.json文件生成DataFrame对象

(2)找出信息学院所有女生的信息(输出其姓名、年龄)

(3)分别统计男女生的平均年龄

(4)各学院,年龄最大、最小的同学

(5)各男女生手机号码段的个数(手机号码段为手机号的前3位)

2.给出2个csv文件,图书馆读者reader.csv(包含读者编号、姓名、性别等信息)和逾期罚款fine.csv(包含读者编号、罚款年份、罚款金额等信息),在SparkShell中完成下列操作。

(1)找出2018年度有罚款的读者编号(不重复)

(2)求出累计罚款金额最多的前3名读者编号

(3)统计出男女生罚款金额最多的读者,并输出其信息(读者编号、姓名、性别、年份、总罚款金额)

3.使用SparkSQL相关技术,对result_math、result_bigdata两门课程成绩进行分析:

(1)找出大数据成绩前5名的学生学号

找出数学成绩、大数据成绩均为前5名学生学号

四、流数据处理,本题得分【】

某计算中心机房有数量众多的计算设备,为了解这些设备的状态,管理人员需及时掌控设备的温度;假设利用Netcat通过9988端口数据,数据样式为“设备ID,当前温度”;利用StructuredStreaming或SparkStreaming编写程序,过滤出温度超过100的设备,并输出相关信息。模拟数据如下:

A101,90

A108,82

A132,109

B201,79

B185,121

文档评论(0)

1亿VIP精品文档

相关文档