（数据科学与大数据技术）Spark编程技术试题及答案.docVIP

下载本文档

0
0
约3.73千字
约 11页
2026-01-09 发布于广东
举报
版权申诉

（数据科学与大数据技术）Spark编程技术试题及答案.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年（数据科学与大数据技术）Spark编程技术试题及答案

第I卷（选择题共40分）

答题要求：本卷共20题，每题2分。每题只有一个正确答案，请将正确答案填涂在答题卡相应位置。

1.Spark中用于分布式数据集的基本抽象是？

A.RDD

B.DataFrame

C.Dataset

D.SQL

2.以下哪个不是Spark运行模式？

A.Standalone

B.Mesos

C.Hadoop

D.YARN

3.在Spark中，通过什么方法可以对RDD进行持久化？

A.persist()

B.cache()

C.bothAandB

D.以上都不对

4.SparkSQL中，用于创建DataFrame的方法是？

A.createDataFrame()

B.newDataFrame()

C.makeDataFrame()

D.buildDataFrame()

5.以下哪种算子是窄依赖？

A.groupBy

B.reduceByKey

C.join

D.map

6.SparkStreaming中，窗口操作是基于什么实现的？

A.时间间隔

B.数据量

C.批次

D.事件

7.要在Spark中读取文本文件，应该使用哪个方法？

A.readTextFile()

B.textFile()

C.loadTextFile()

D.getTextFile()

8.在Spark中，对DataFrame进行排序使用的函数是？

A.sort()

B.orderBy()

C.bothAandB

D.arrange()

9.以下哪个是Spark中的广播变量？

A.BroadcastVariable

B.Broadcast

C.DistributedBroadcast

D.BroadcastData

10.SparkMLlib中，用于线性回归的类是？

A.LinearRegression

B.LinearModel

C.Regression

D.LinearRegressionModel

11.当对一个RDD进行多次操作时，以下哪种方式可以避免重复计算？

A.使用cache或persist

B.减少操作次数

C.优化代码

D.增加并行度

12.在SparkSQL中，如何执行SQL查询？

A.sql()方法

B.executeQuery()方法

C.runSql()方法

D.query()方法

13.SparkStreaming中，DStream表示？

A.离散流

B.持续流

C.数据流

D.动态流

14.用于将RDD转换为DataFrame的函数是？

A.toDF()

B.asDF()

C.convertToDF()

D.makeDF()

15.在Spark中，shuffle操作会？

A.增加网络传输

B.减少计算量

C.提高性能

D.降低数据倾斜

16.SparkMLlib中，用于聚类的算法是？

A.KMeans

B.DBSCAN

C.bothAandB

D.HierarchicalClustering

17.当读取Hive表时，SparkSQL使用的数据源是？

A.HiveContext

B.SQLContext

C.SparkSession

D.HiveSession

18.在Spark中创建一个包含10个元素的RDD，应该使用？

A.sc.parallelize(1to10)

B.sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))

C.sc.makeRDD(1to10)

D.sc.createRDD(1to10)

19.SparkStreaming中，窗口操作的窗口长度和滑动间隔的单位是？

A.秒

B.分钟

C.批次

D.以上都可以

20.在Spark中，对两个RDD进行笛卡尔积操作使用的函数是？

A.cartesian()

B.crossProduct()

C.product()

D.cross()

第II卷（非选择题共60分）

（一）简答题（共20分）

答题要求：本部分共4题，每题5分。请在答题区域下划线处作答，答案字数150字左右。

1.简述Spark中RDD的特点。

___

RDD是Spark中分布式数据集的基本抽象。它具有不可变、容错、分区等特点。不可变保证数据一致性，容错通过血统信息实现，分区支持

您可能关注的文档

文档评论（0）

标书、施工组织设计、方案编写 + 关注: 实名认证

服务提供商

监理工程师持证人

专注施工方案、施工组织设计编写，有实际的施工现场经验，并从事编制施工组织设计多年，有丰富的标书制作经验，主要为水利、市政、房建、园林绿化。

咨询作者（35人已咨询）已休息

领域认证该用户于2023年05月24日上传了监理工程师

1亿VIP精品文档

更多 >

（数据科学与大数据技术）Spark编程技术试题及答案.docVIP