大数据架构师岗位招聘考试试卷及答案.docVIP

大数据架构师岗位招聘考试试卷及答案.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据架构师岗位招聘考试试卷及答案

大数据架构师岗位招聘考试试卷及答案

一、填空题(共10题,每题1分)

1.HDFS默认的文件块大小是______MB。

2.Spark的核心抽象数据结构是______。

3.Hive的元数据默认存储在______数据库中(小型场景)。

4.Kafka中,消费者组的消费者数量不能超过______数量。

5.数据仓库的核心设计原则之一是______(消除数据冗余)。

6.Flink支持的窗口类型包括滚动窗口、滑动窗口和______窗口。

7.大数据架构分层通常包含数据采集层、存储层、计算层、______层和应用层。

8.OLAP(联机分析处理)的核心特点是______分析和只读访问。

9.数据湖与数据仓库的核心区别:数据湖存储______数据,数据仓库存储结构化数据。

10.SparkSQL优化中,“将过滤条件下推到数据源执行”的技术称为______。

二、单项选择题(共10题,每题2分)

1.Hadoop生态中负责资源调度与管理的核心组件是?

A.MapReduceB.YARNC.HDFSD.Hive

2.Spark中属于转换操作(返回新RDD)的是?

A.countB.collectC.mapD.take

3.Kafka集群中,存储消息的核心节点是?

A.ProducerB.ConsumerC.BrokerD.ZooKeeper

4.星型模型与雪花模型的主要区别是?

A.事实表数量B.维度表是否有层次结构C.存储格式D.性能

5.Flink实现有状态流计算的关键组件是?

A.算子状态B.状态后端C.键控状态D.检查点

6.以下不属于实时计算组件的是?

A.SparkStreamingB.FlinkC.StormD.Hive

7.数据治理的核心目标是?

A.数据安全B.数据质量C.数据备份D.数据扩容

8.HDFS默认的副本因子是?

A.1B.2C.3D.4

9.SparkDAG调度器的核心作用是?

A.划分任务阶段B.分配资源C.执行任务D.监控进度

10.数据湖常用的原始数据存储格式是?

A.ParquetB.ORCC.CSVD.Avro

三、多项选择题(共10题,每题2分,多选、少选均不得分)

1.Hadoop生态的核心组件包括?

A.YARNB.HDFSC.MapReduceD.SparkE.Flink

2.Spark的核心组件有?

A.SparkCoreB.SparkSQLC.SparkStreamingD.MLlibE.GraphX

3.数据仓库设计的关键步骤包括?

A.需求分析B.概念设计C.逻辑设计D.物理设计E.数据加载

4.Kafka的核心特性有?

A.高吞吐量B.可持久化C.分布式D.容错性E.实时性

5.大数据架构分层通常包含?

A.数据采集层B.存储层C.计算层D.分析层E.应用层

6.数据质量的核心维度包括?

A.准确性B.完整性C.一致性D.及时性E.唯一性

7.Flink支持的窗口类型有?

A.滚动窗口B.滑动窗口C.会话窗口D.全局窗口E.时间窗口

8.大数据架构中的数据安全措施包括?

A.数据加密B.访问控制C.审计日志D.数据脱敏E.备份

9.实时计算场景常用的组件有?

A.FlinkB.KafkaC.RedisD.StormE.HBase

10.数据湖与数据仓库的区别包括?

A.数据类型(原始vs结构化)B.Schema设计(读时vs写时)C.用途(全量分析vs决策支持)D.扩展性(高vs中等)E.查询性能(慢vs快)

四、判断题(共10题,每题2分,正确填“√”,错误填“×”)

1.HDFS块大小越大,小文件存储浪费越严重。()

2.Spark的RDD是不可变的分布式数据集。()

3.Kafka消费者组的消费者数必须等于分区数。()

4.数据仓库是面向主题、集成、非易失的。()

5.Flink是批流一体的计算框架。()

6.Hive支持毫秒级实时查询。()

7.数据湖的Schema是预先定义的。()

8.SparkDAG调度基于Stage划分(按宽依赖切分)。()

9.YARN仅负责资源管理,不参与调度。()

10.数据脱敏是数据安全的核心措施之一。()

五、简答题(共4题,每题5分,答案不超过200字)

1.简述HDFS的主从架构及核心功能。

2.对比Spark与MapReduce的核心差异。

3.简述数据仓库星型模型的设计思路。

4.简述Flink批流一体的核心优势。

六、讨论题(共2题,每题5分,答案不超过200字)

1.大数据架构中,如何解决小文件存储效率低的问题?

2.如何平衡大数据架构中的实时性与数据一致性?

---

参考答案

一、填空题

1.1282.RDD3.Derby4.分区5.三范式(或“消除冗余”)6.会话7.分析8.多维9.原始

您可能关注的文档

文档评论(0)

。。 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档