大数据开发工程师（Spark）岗位招聘考试试卷及答案.docVIP

下载本文档

0
0
约3.56千字
约 5页
2025-11-24 发布于山东
举报
版权申诉

大数据开发工程师（Spark）岗位招聘考试试卷及答案.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据开发工程师（Spark）岗位招聘考试试卷及答案

一、填空题（每题1分，共10分）

1.Spark核心组件中负责集群资源管理的是______。（答案：YARN或Mesos或Standalone，任填一个正确的即可）

2.RDD的中文全称是______。（答案：弹性分布式数据集）

3.Spark中创建DataFrame的方式有______种。（答案：3）

4.广播变量使用______方法创建。（答案：broadcast）

5.SparkSQL中用于查询的类是______。（答案：SparkSession）

6.累加器的作用是______。（答案：在集群中对变量进行累加操作）

7.从HDFS读取数据创建RDD的方法是______。（答案：sc.textFile，sc是SparkContext实例）

8.Spark中默认的分区器是______。（答案：HashPartitioner）

9.DataFrame可以通过______方法转换为RDD。（答案：rdd）

10.对RDD进行排序的方法是______。（答案：sortBy）

二、单项选择题（每题2分，共20分）

1.以下哪个不是Spark的部署模式（）

A.StandaloneB.YARNC.MapReduceD.Mesos

（答案：C）

2.Spark应用程序的入口是（）

A.SparkContextB.SQLContextC.HiveContextD.SparkSession

（答案：D）

3.以下哪种操作会触发RDD的计算（）

A.mapB.filterC.collectD.flatMap

（答案：C）

4.对RDD进行分组操作的方法是（）

A.groupByKeyB.reduceByKeyC.joinD.cogroup

（答案：A）

5.关于广播变量，说法正确的是（）

A.每个节点都有一份副本B.只有Driver有副本

C.只在计算时创建副本D.不可以修改

（答案：A）

6.SparkSQL中读取JSON文件的方法是（）

A.read.jsonB.json.readC.load.jsonD.read.load

（答案：A）

7.以下哪个是Spark中的宽依赖操作（）

A.mapB.unionC.joinD.filter

（答案：C）

8.累加器在使用时，哪个操作是错误的（）

A.初始化值B.不同节点累加C.Driver读取值D.多个累加器同名

（答案：D）

9.对DataFrame进行去重操作的方法是（）

A.distinctB.dropDuplicatesC.uniqueD.removeDuplicates

（答案：A）

10.以下哪种数据结构在Spark中用于分布式计算（）

A.ArrayListB.HashMapC.RDDD.LinkedList

（答案：C）

三、多项选择题（每题2分，共20分）

1.Spark的核心组件包括（）

A.SparkCoreB.SparkSQLC.SparkStreamingD.MLlibE.GraphX

（答案：ABCDE）

2.以下哪些是RDD的转换操作（）

A.mapB.reduceC.filterD.takeE.flatMap

（答案：ACE）

3.可以创建SparkSession的方式有（）

A.SparkSession.builderB.SparkContext.builder

C.SQLContext.builderD.newSparkSession()

（答案：A）

4.Spark中分区的作用有（）

A.提高并行度B.数据本地化C.减少通信开销D.方便数据管理

（答案：ABCD）

5.以下关于DataFrame和RDD说法正确的是（）

A.DataFrame有schemaB.RDD更灵活

C.DataFrame性能一定比RDD好D.可以相互转换

（答案：ABD）

6.SparkSQL支持的数据格式有（）

A.JSONB.ParquetC.CSVD.ORC

（答案：ABCD）

7.广播变量和累加器的共同点有（）

A.分布式环境使用B.提高性能C.可修改D.只在Driver端定义

（答案：ABD）

8.对RDD进行聚合操作的方法有（）

A.reduceByKeyB.aggregateC.foldD.groupBy

（答案：ABC）

9.以下哪些是Spark优化的方法（）

A.减少宽依赖B.合理设置分区C.广播大表D.使用Kryo序列化

（答案：ABCD）

10.SparkStreaming可以处理的数据源有（）

A.KafkaB.FlumeC.SocketD.HDFS

（答案：ABC）

四、判断题（每题2分，共20分）

1.Spark只能运行在Linux系统上。（×）

2.RDD是不可变的。（√）

3.广播变量可以在Ex

您可能关注的文档

文档评论（0）

。。 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据开发工程师（Spark）岗位招聘考试试卷及答案.docVIP