大数据开发工程师(Spark)岗位招聘考试试卷及答案.docVIP

大数据开发工程师(Spark)岗位招聘考试试卷及答案.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据开发工程师(Spark)岗位招聘考试试卷及答案

一、填空题(每题1分,共10分)

1.Spark核心组件中负责集群资源管理的是______。(答案:YARN或Mesos或Standalone,任填一个正确的即可)

2.RDD的中文全称是______。(答案:弹性分布式数据集)

3.Spark中创建DataFrame的方式有______种。(答案:3)

4.广播变量使用______方法创建。(答案:broadcast)

5.SparkSQL中用于查询的类是______。(答案:SparkSession)

6.累加器的作用是______。(答案:在集群中对变量进行累加操作)

7.从HDFS读取数据创建RDD的方法是______。(答案:sc.textFile,sc是SparkContext实例)

8.Spark中默认的分区器是______。(答案:HashPartitioner)

9.DataFrame可以通过______方法转换为RDD。(答案:rdd)

10.对RDD进行排序的方法是______。(答案:sortBy)

二、单项选择题(每题2分,共20分)

1.以下哪个不是Spark的部署模式()

A.StandaloneB.YARNC.MapReduceD.Mesos

(答案:C)

2.Spark应用程序的入口是()

A.SparkContextB.SQLContextC.HiveContextD.SparkSession

(答案:D)

3.以下哪种操作会触发RDD的计算()

A.mapB.filterC.collectD.flatMap

(答案:C)

4.对RDD进行分组操作的方法是()

A.groupByKeyB.reduceByKeyC.joinD.cogroup

(答案:A)

5.关于广播变量,说法正确的是()

A.每个节点都有一份副本B.只有Driver有副本

C.只在计算时创建副本D.不可以修改

(答案:A)

6.SparkSQL中读取JSON文件的方法是()

A.read.jsonB.json.readC.load.jsonD.read.load

(答案:A)

7.以下哪个是Spark中的宽依赖操作()

A.mapB.unionC.joinD.filter

(答案:C)

8.累加器在使用时,哪个操作是错误的()

A.初始化值B.不同节点累加C.Driver读取值D.多个累加器同名

(答案:D)

9.对DataFrame进行去重操作的方法是()

A.distinctB.dropDuplicatesC.uniqueD.removeDuplicates

(答案:A)

10.以下哪种数据结构在Spark中用于分布式计算()

A.ArrayListB.HashMapC.RDDD.LinkedList

(答案:C)

三、多项选择题(每题2分,共20分)

1.Spark的核心组件包括()

A.SparkCoreB.SparkSQLC.SparkStreamingD.MLlibE.GraphX

(答案:ABCDE)

2.以下哪些是RDD的转换操作()

A.mapB.reduceC.filterD.takeE.flatMap

(答案:ACE)

3.可以创建SparkSession的方式有()

A.SparkSession.builderB.SparkContext.builder

C.SQLContext.builderD.newSparkSession()

(答案:A)

4.Spark中分区的作用有()

A.提高并行度B.数据本地化C.减少通信开销D.方便数据管理

(答案:ABCD)

5.以下关于DataFrame和RDD说法正确的是()

A.DataFrame有schemaB.RDD更灵活

C.DataFrame性能一定比RDD好D.可以相互转换

(答案:ABD)

6.SparkSQL支持的数据格式有()

A.JSONB.ParquetC.CSVD.ORC

(答案:ABCD)

7.广播变量和累加器的共同点有()

A.分布式环境使用B.提高性能C.可修改D.只在Driver端定义

(答案:ABD)

8.对RDD进行聚合操作的方法有()

A.reduceByKeyB.aggregateC.foldD.groupBy

(答案:ABC)

9.以下哪些是Spark优化的方法()

A.减少宽依赖B.合理设置分区C.广播大表D.使用Kryo序列化

(答案:ABCD)

10.SparkStreaming可以处理的数据源有()

A.KafkaB.FlumeC.SocketD.HDFS

(答案:ABC)

四、判断题(每题2分,共20分)

1.Spark只能运行在Linux系统上。(×)

2.RDD是不可变的。(√)

3.广播变量可以在Ex

文档评论(0)

。。 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档