2026年大数据工程师职业资格考试题库（附答案和详细解析）（0101）.docxVIP

下载本文档

0
0
约7.6千字
约 11页
2026-01-09 发布于上海
举报
版权申诉

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0101）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Hadoop生态中负责分布式存储的核心组件？

A.HBase

B.HDFS

C.Hive

D.Spark

答案：B

解析：Hadoop生态的核心组件包括HDFS（分布式文件系统，负责存储）、YARN（资源管理）和MapReduce（计算框架）。HBase是基于HDFS的列式数据库（A错误），Hive是数据仓库工具（C错误），Spark是计算框架（D错误）。

以下哪种数据处理框架更适合实时流数据处理？

A.MapReduce

B.Hive

C.Flink

D.HBase

答案：C

解析：Flink是专为流处理设计的框架，支持毫秒级延迟的实时计算（C正确）。MapReduce和Hive均为批处理框架（A、B错误），HBase是存储系统（D错误）。

分布式系统中，CAP定理的“C”指的是？

A.一致性（Consistency）

B.可用性（Availability）

C.分区容错性（PartitionTolerance）

D.正确性（Correctness）

答案：A

解析：CAP定理中的三个特性为一致性（Consistency）、可用性（Availability）、分区容错性（PartitionTolerance），“C”对应一致性（A正确）。

数据清洗中，处理“年龄字段出现-5”的问题属于？

A.去重处理

B.缺失值处理

C.异常值处理

D.格式标准化

答案：C

解析：年龄为负数是不符合业务逻辑的异常值（C正确）。去重处理针对重复记录（A错误），缺失值处理针对空值（B错误），格式标准化针对字段格式不一致（D错误）。

以下哪项是Kafka的核心概念？

A.RDD

B.Topic

C.DataFrame

D.PartitionTolerance

答案：B

解析：Kafka通过Topic（主题）组织消息流（B正确）。RDD是Spark的核心抽象（A错误），DataFrame是SparkSQL的结构化数据接口（C错误），PartitionTolerance是CAP定理概念（D错误）。

数据仓库（DW）的典型特征是？

A.支持实时写入

B.面向事务处理

C.面向主题建模

D.存储原始未加工数据

答案：C

解析：数据仓库以业务主题（如客户、销售）为中心组织数据（C正确）。实时写入是数据库特性（A错误），面向事务是OLTP系统特征（B错误），存储原始数据是数据湖的特征（D错误）。

Spark中，以下哪项操作属于转换（Transformation）？

A.collect()

B.count()

C.reduce()

D.map()

答案：D

解析：转换操作（如map、filter）生成新RDD，延迟执行；行动操作（如collect、count、reduce）触发计算（D正确）。

大数据场景中，“冷数据”通常指？

A.实时产生的高频访问数据

B.历史归档的低频访问数据

C.加密存储的敏感数据

D.未经过清洗的原始数据

答案：B

解析：冷数据是长期存储、访问频率低的数据（如5年前的交易记录）（B正确）。高频访问是热数据（A错误），加密是安全属性（C错误），原始数据是未处理状态（D错误）。

以下哪种数据库适合存储大规模半结构化日志数据？

A.关系型数据库（如MySQL）

B.键值数据库（如Redis）

C.列式数据库（如HBase）

D.图数据库（如Neo4j）

答案：C

解析：列式数据库（如HBase）适合存储稀疏、半结构化的日志数据（C正确）。关系型数据库适合结构化事务（A错误），键值数据库适合缓存（B错误），图数据库适合关系查询（D错误）。

实时计算中，“端到端延迟”通常指？

A.数据从生产到消费的总时间

B.单个节点的处理时间

C.任务调度的等待时间

D.数据在网络传输的时间

答案：A

解析：端到端延迟是数据从产生（如传感器）到输出结果（如仪表盘）的完整时间（A正确）。其他选项是延迟的组成部分（B、C、D错误）。

二、多项选择题（共10题，每题2分，共20分）

以下属于HDFS（Hadoop分布式文件系统）特性的有？

A.高容错性（通过副本机制）

B.适合存储大量小文件

C.支持流式数据访问

D.随机读写性能优异

答案：AC

解析：HDFS通过多副本机制保证高容错（A正确），设计目标是流式访问大文件（C正确）。小文件会占用NameNode内存（B错误），随机读写非HDFS优势（D错误）。

Spark的核心组件包括？

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.SparkMLlib

答案：ABCD

解析：S

您可能关注的文档

文档评论（0）

dvlan123 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0101）.docxVIP