- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据开发工程师(Spark)岗位招聘考试试卷及答案
一、填空题(每题1分,共10分)
1.Spark核心组件中负责集群资源管理的是______。(答案:YARN或Mesos或Standalone,任填一个正确的即可)
2.RDD的中文全称是______。(答案:弹性分布式数据集)
3.Spark中创建DataFrame的方式有______种。(答案:3)
4.广播变量使用______方法创建。(答案:broadcast)
5.SparkSQL中用于查询的类是______。(答案:SparkSession)
6.累加器的作用是______。(答案:在集群中对变量进行累加操作)
7.从HDFS读取数据创建RDD的方法是______。(答案:sc.textFile,sc是SparkContext实例)
8.Spark中默认的分区器是______。(答案:HashPartitioner)
9.DataFrame可以通过______方法转换为RDD。(答案:rdd)
10.对RDD进行排序的方法是______。(答案:sortBy)
二、单项选择题(每题2分,共20分)
1.以下哪个不是Spark的部署模式()
A.StandaloneB.YARNC.MapReduceD.Mesos
(答案:C)
2.Spark应用程序的入口是()
A.SparkContextB.SQLContextC.HiveContextD.SparkSession
(答案:D)
3.以下哪种操作会触发RDD的计算()
A.mapB.filterC.collectD.flatMap
(答案:C)
4.对RDD进行分组操作的方法是()
A.groupByKeyB.reduceByKeyC.joinD.cogroup
(答案:A)
5.关于广播变量,说法正确的是()
A.每个节点都有一份副本B.只有Driver有副本
C.只在计算时创建副本D.不可以修改
(答案:A)
6.SparkSQL中读取JSON文件的方法是()
A.read.jsonB.json.readC.load.jsonD.read.load
(答案:A)
7.以下哪个是Spark中的宽依赖操作()
A.mapB.unionC.joinD.filter
(答案:C)
8.累加器在使用时,哪个操作是错误的()
A.初始化值B.不同节点累加C.Driver读取值D.多个累加器同名
(答案:D)
9.对DataFrame进行去重操作的方法是()
A.distinctB.dropDuplicatesC.uniqueD.removeDuplicates
(答案:A)
10.以下哪种数据结构在Spark中用于分布式计算()
A.ArrayListB.HashMapC.RDDD.LinkedList
(答案:C)
三、多项选择题(每题2分,共20分)
1.Spark的核心组件包括()
A.SparkCoreB.SparkSQLC.SparkStreamingD.MLlibE.GraphX
(答案:ABCDE)
2.以下哪些是RDD的转换操作()
A.mapB.reduceC.filterD.takeE.flatMap
(答案:ACE)
3.可以创建SparkSession的方式有()
A.SparkSession.builderB.SparkContext.builder
C.SQLContext.builderD.newSparkSession()
(答案:A)
4.Spark中分区的作用有()
A.提高并行度B.数据本地化C.减少通信开销D.方便数据管理
(答案:ABCD)
5.以下关于DataFrame和RDD说法正确的是()
A.DataFrame有schemaB.RDD更灵活
C.DataFrame性能一定比RDD好D.可以相互转换
(答案:ABD)
6.SparkSQL支持的数据格式有()
A.JSONB.ParquetC.CSVD.ORC
(答案:ABCD)
7.广播变量和累加器的共同点有()
A.分布式环境使用B.提高性能C.可修改D.只在Driver端定义
(答案:ABD)
8.对RDD进行聚合操作的方法有()
A.reduceByKeyB.aggregateC.foldD.groupBy
(答案:ABC)
9.以下哪些是Spark优化的方法()
A.减少宽依赖B.合理设置分区C.广播大表D.使用Kryo序列化
(答案:ABCD)
10.SparkStreaming可以处理的数据源有()
A.KafkaB.FlumeC.SocketD.HDFS
(答案:ABC)
四、判断题(每题2分,共20分)
1.Spark只能运行在Linux系统上。(×)
2.RDD是不可变的。(√)
3.广播变量可以在Ex
原创力文档


文档评论(0)