2026年大数据工程师职业资格考试题库（附答案和详细解析）（0106）.docxVIP

下载本文档

0
0
约7.64千字
约 12页
2026-01-18 发布于江苏
举报
版权申诉

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0106）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

HDFS默认的块大小是以下哪一项？

A.64MB

B.128MB

C.256MB

D.512MB

答案：B

解析：HDFS默认块大小为128MB（Hadoop2.x及以上版本），设计目的是减少NameNode内存占用并提升大文件处理效率。选项A是Hadoop1.x的默认块大小；C和D为常见干扰项，不符合HDFS默认配置。

Spark的核心抽象是？

A.DataFrame

B.Dataset

C.RDD

D.DStream

答案：C

解析：RDD（弹性分布式数据集）是Spark的核心抽象，定义了分布式数据的不可变、可分区、容错的特性。DataFrame和Dataset是基于RDD的高层抽象（A、B错误）；DStream是SparkStreaming的抽象（D错误）。

以下哪项不是HBase的特性？

A.列式存储

B.支持SQL查询

C.高并发写入

D.适用于实时读写场景

答案：B

解析：HBase是列式存储数据库（A正确），设计目标是高并发写入（C正确）和实时读写（D正确）。HBase本身不支持SQL查询，需通过Phoenix等中间件实现（B错误）。

数据仓库（DW）与数据库（DB）的核心区别是？

A.数据结构是否规范

B.是否支持事务

C.面向分析还是事务

D.是否存储历史数据

答案：C

解析：数据仓库面向分析（OLAP），数据库面向事务（OLTP）（C正确）。两者均可规范数据结构（A错误）；数据库支持事务（B错误）；数据仓库可能存储历史数据，但非核心区别（D错误）。

Flink的时间语义中，“EventTime”指的是？

A.数据进入处理系统的时间

B.数据实际发生的时间

C.数据处理完成的时间

D.窗口触发的时间

答案：B

解析：EventTime是数据本身携带的时间戳（如日志生成时间）（B正确）；A是IngestionTime；C和D无此定义。

以下哪项属于非结构化数据？

A.关系型数据库表

B.日志文件

C.Excel表格

D.客户信息表单

答案：B

解析：非结构化数据无固定格式（如文本、日志）（B正确）；A、C、D均为结构化数据（有明确行列或字段定义）。

分布式系统中，ZooKeeper主要用于？

A.分布式计算

B.分布式存储

C.分布式协调

D.分布式缓存

答案：C

解析：ZooKeeper核心功能是分布式协调（如集群管理、配置同步、分布式锁）（C正确）；A对应MapReduce/Spark，B对应HDFS，D对应Redis。

以下哪项不是数据清洗的主要任务？

A.处理缺失值

B.转换数据格式

C.分析数据分布

D.检测异常值

答案：C

解析：数据清洗包括缺失值处理（A）、格式转换（B）、异常值检测（D）；分析数据分布属于数据探索阶段（C错误）。

实时计算框架的关键指标不包括？

A.吞吐量

B.延迟

C.容错能力

D.存储成本

答案：D

解析：实时计算关注吞吐量（单位时间处理数据量）、延迟（处理耗时）、容错能力（故障恢复）（A、B、C正确）；存储成本是离线计算或存储系统的指标（D错误）。

以下哪项是Hive的核心功能？

A.实时数据存储

B.基于SQL的数据查询

C.内存计算

D.分布式事务

答案：B

解析：Hive是数据仓库工具，支持通过HiveQL（类SQL）进行离线数据查询（B正确）；A对应HBase，C对应Spark，D非Hive特性。

二、多项选择题（共10题，每题2分，共20分）

以下属于Hadoop生态组件的有？

A.HDFS

B.YARN

C.Spark

D.Flink

答案：AB

解析：Hadoop生态核心组件包括HDFS（存储）、YARN（资源管理）、MapReduce（计算）（A、B正确）。Spark和Flink是独立的计算框架（C、D错误）。

数据清洗的常用方法包括？

A.均值填充缺失值

B.箱线图检测异常值

C.主成分分析（PCA）

D.删除重复记录

答案：ABD

解析：均值填充（A）、箱线图检测（B）、删除重复（D）均为数据清洗方法。PCA是降维技术（属于特征工程）（C错误）。

SparkRDD的持久化级别包括？

A.MEMORY_ONLY

B.MEMORY_AND_DISK

C.DISK_ONLY

D.MEMORY_ONLY_SER

答案：ABCD

解析：Spark支持多种持久化级别，包括仅内存（A）、内存+磁盘（B）、仅磁盘（C）、内存序列化（D），均为正确选项。

以下属于列式存储数据库的有？

A.HBase

B.MySQL

C.Cassandra

D.Oracle

答案：AC

解

您可能关注的文档

文档评论（0）

MenG + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0106）.docxVIP