大数据平台架构师岗位招聘考试试卷及答案.docVIP

大数据平台架构师岗位招聘考试试卷及答案.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据平台架构师岗位招聘考试试卷及答案

试题部分

一、填空题(共10题,每题1分)

1.Hadoop生态中负责分布式存储的核心组件是______。

2.数据仓库维度建模的基础是______表。

3.Flink的核心特性之一是______(如Exactly-Once语义)。

4.大数据平台通常分为采集层、存储层、计算层和______层。

5.Spark的分布式核心抽象是______。

6.数据湖存储______格式的数据,无需预先定义结构。

7.Kafka中负责消息持久化的核心组件是______。

8.离线计算框架除MapReduce外,常用的还有______。

9.数据治理核心包括数据质量、安全和______。

10.Hive早期默认执行引擎是______。

二、单项选择题(共10题,每题2分)

1.以下不属于分布式存储组件的是?

A.HDFSB.CephC.MySQLD.MinIO

2.Flink比SparkStreaming更突出的特性是?

A.批处理B.Exactly-Once语义C.高吞吐量D.简单API

3.数据仓库与数据湖的主要区别是?

A.存储位置B.数据结构定义时机C.存储容量D.访问速度

4.实时数仓常用框架是?

A.HiveB.SparkSQLC.FlinkSQLD.MapReduce

5.Kafka生产者与消费者通过什么交互?

A.TopicB.PartitionC.BrokerD.Offset

6.大数据元数据管理常用工具是?

A.ZookeeperB.HiveMetastoreC.KafkaD.Flink

7.适合高频读写实时数据的存储是?

A.HDFSB.HBaseC.S3D.本地磁盘

8.SparkDataFrame与RDD的主要区别是?

A.分布式B.有SchemaC.可缓存D.支持SQL

9.数据血缘的作用是?

A.统计数据大小B.追踪来源与去向C.加密数据D.备份数据

10.不属于实时采集工具的是?

A.FlumeB.LogstashC.SqoopD.Filebeat

三、多项选择题(共10题,每题2分)

1.Hadoop生态核心组件包括?

A.HDFSB.MapReduceC.YARND.Spark

2.数据仓库常用模型有?

A.星型模型B.雪花模型C.事实星座模型D.关系模型

3.实时计算框架包括?

A.FlinkB.SparkStreamingC.StormD.MapReduce

4.大数据平台应用层场景有?

A.报表分析B.实时监控C.机器学习D.离线计算

5.Kafka关键概念包括?

A.TopicB.PartitionC.OffsetD.Broker

6.数据治理核心维度有?

A.数据质量B.数据安全C.数据标准D.数据成本

7.适合存储半结构化数据的组件有?

A.HBaseB.MongoDBC.CassandraD.Redis

8.Spark核心模块包括?

A.SparkCoreB.SparkSQLC.SparkStreamingD.SparkMLlib

9.实时数仓架构层次包括?

A.ODS层B.DWD层C.DWS层D.ADS层

10.大数据架构设计需考虑的因素有?

A.可扩展性B.容错性C.性能D.成本

四、判断题(共10题,每题2分)

1.HDFSNameNode存储数据块元数据。()

2.SparkStreaming是微批处理,Flink是流处理。()

3.数据湖存储经过清洗的结构化数据。()

4.KafkaPartition不可分区。()

5.Hive可基于Hadoop执行SQL查询。()

6.实时计算延迟通常在秒级/毫秒级。()

7.数据治理仅关注数据质量。()

8.SparkRDD是不可变分布式数据集。()

9.FlumeSource收集数据,Sink输出数据。()

10.数据仓库DWD层是明细数据层。()

五、简答题(共4题,每题5分)

1.简述HDFS主从架构及核心组件作用。

2.对比数据仓库与数据湖的核心差异。

3.简述FlinkExactly-Once语义的实现原理。

4.大数据平台架构设计的基本原则有哪些?

六、讨论题(共2题,每题5分)

1.如何设计支持TB级实时数据处理的大数据平台架构?

2.大数据平台数据治理的难点及解决思路是什么?

答案部分

一、填空题答案

1.HDFS

2.事实

3.Exactly-Once(或状态一致性、低延迟)

4.应用/服务

5.RDD

6.原始/未结构化

7.Broker

8.Spark(或Flink离线模式)

9.数据生命周期管理(或数据标准)

10.MapReduce

二、单项选择题答案

1.C2.B3.B4.C5.A

6.B7.B8.B9.B10.C

三、多项选择题答案

1.ABC2.ABC3.ABC4.ABC5.

您可能关注的文档

文档评论(0)

。。 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档