Spark大数据技术试卷B
第
第PAGE1页共NUMPAGES4页
一、选择题(5小题,共15分),本题得分【】1、关于
一、选择题(5小题,共15分),本题得分【】
1、关于Scala下列说法错误的是()
A函数式编程语言B面向对象程序设计语言
C运行在JVM上D一种低级语言
2.以下哪个方法可以正确的计算数组a的长度()
A.count()B.take(1)C.tail()D.length()
3.关于RDD,不正确的是()
A可以分区B可修改C惰性计算D可持久化
4下面关于List的定义不正确的是()
Avallist=List(0.1,0.2,0.3)Bvallist=List(“hello”,“new”)
Cvallist:String=List(“a”,“b”)Dvallist=List[](1,2,3)
郑述招
密封线
班内序号
考生姓名
学号
班级
试室号
注意:密封线内不要答题密封线外不要写姓名、学号、班级、违者试卷作零分处理
出卷教师:
***************************学院
2023-2024学年第1学期期末
Spark大数据技术试卷B卷
(考试班级:22级大数据开发班)
(时间:120分钟|满分:100分)
题号
一
二
三
四
总成绩
评卷人
得分
5以下关于Scala变量的定义不正确的是()
A、valwords:String=”hello”Bvalmum=12
C、varnum:String=NoneDvalapple:Double=2
二、SparkRDD编程(共30分),本题得分【】
一个整数列3、10、5、6、8、2、6、5
(1)生成一个RDD(命名为rdd1)
(2)该rdd1元素乘以2,得到新的RDD(命名为rdd2)
(3)新rdd2去重,得到新的RDD(命名为rdd3)
(4)rdd2中大于10的元素,并逐项打印输出,输出格式为:Elementisbiggerthan10。(Element表示元素的值,如20、12、16等)
(5)求rdd2所有元素的和
(6)找出rdd2中,最大的3个元素
三、SparkSQL编程(共35分),本题得分【】
1.在SparkShell中完成下列操作:
(1)由student.json文件生成DataFrame对象
(2)找出信息学院所有女生的信息(输出其姓名、年龄)
(3)分别统计男女生的平均年龄
(4)各学院,年龄最大、最小的同学
(5)各男女生手机号码段的个数(手机号码段为手机号的前3位)
2.给出2个csv文件,图书馆读者reader.csv(包含读者编号、姓名、性别等信息)和逾期罚款fine.csv(包含读者编号、罚款年份、罚款金额等信息),在SparkShell中完成下列操作。
(1)找出2018年度有罚款的读者编号(不重复)
(2)求出累计罚款金额最多的前3名读者编号
(3)统计出男女生罚款金额最多的读者,并输出其信息(读者编号、姓名、性别、年份、总罚款金额)
3.使用SparkSQL相关技术,对result_math、result_bigdata两门课程成绩进行分析:
(1)找出大数据成绩前5名的学生学号
找出数学成绩、大数据成绩均为前5名学生学号
四、流数据处理,本题得分【】
某计算中心机房有数量众多的计算设备,为了解这些设备的状态,管理人员需及时掌控设备的温度;假设利用Netcat通过9988端口数据,数据样式为“设备ID,当前温度”;利用StructuredStreaming或SparkStreaming编写程序,过滤出温度超过100的设备,并输出相关信息。模拟数据如下:
A101,90
A108,82
A132,109
B201,79
B185,121
您可能关注的文档
最近下载
- 教学述评的内涵意义及其实践路径探索.docx VIP
- 中药复方制剂开发研究.pptx VIP
- 热点十一+人工智能全球竞争加剧+科技自立自强护航国家发展(课件)备战2026年高考复习时政热点解读及命题探究(全国通用).pptx VIP
- 全国统一电力市场发展规划蓝皮书2025.pdf VIP
- 《中国共产党思想政治教育史》第四章 解放战争时期思想政治教育的成功实践.pptx VIP
- (QC成果)降低机电安装返工率.docx VIP
- 2025年河北省高职单招中职高考语文试题真题(含答案详解).pdf
- 2025年苏州工业职业技术学院单招笔试英语试题库含答案解析(5套试卷).docx VIP
- 急诊住院老年患者护理服务需求的调查分析及护理对策.pdf VIP
- 中国共产党思想政治教育史(第三版) 课件 第七章 资本主义经济运行规律.pptx VIP
原创力文档

文档评论(0)