2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1103）.docxVIP

下载本文档

2
0
约8.03千字
约 11页
2025-11-06 发布于江苏
举报
版权申诉

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1103）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据工程师职业资格认证考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪个组件是Hadoop生态中负责资源管理的核心模块？

A.HDFS

B.YARN

C.MapReduce

D.HBase

答案：B

解析：Hadoop生态中，HDFS（A）负责分布式存储，YARN（B）负责资源管理和任务调度，MapReduce（C）是计算框架，HBase（D）是列式数据库。因此正确答案为B。

数据仓库（DataWarehouse）的核心特性是？

A.支持实时事务处理（OLTP）

B.面向主题、集成、非易失、随时间变化

C.存储非结构化数据为主

D.强调数据的增删改操作

答案：B

解析：数据仓库的核心特性是面向主题（分析特定业务主题）、集成（多源数据整合）、非易失（历史数据长期保留）、随时间变化（按时间维度存储）。OLTP是数据库的特性（A错误），数据仓库以结构化数据为主（C错误），强调查询而非增删改（D错误）。

以下哪种分布式计算框架适合处理高延迟、大规模批处理任务？

A.Spark

B.Flink

C.MapReduce

D.Storm

答案：C

解析：MapReduce（C）设计初衷是处理大规模批处理任务，由于其“磁盘-计算-磁盘”的高延迟特性，适合对实时性要求不高的场景；Spark（A）基于内存计算，适合低延迟批处理和流处理；Flink（B）和Storm（D）是流处理框架，适合实时计算。

数据清洗中处理“年龄字段出现-5”的问题属于？

A.缺失值处理

B.异常值处理

C.重复值处理

D.不一致值处理

答案：B

解析：“年龄-5”是明显不符合业务逻辑的数值（异常值），需通过阈值检测或统计方法识别并修正；缺失值（A）指字段为空，重复值（C）指完全相同的记录，不一致值（D）指格式或含义冲突（如“男”与“M”）。

以下属于列式存储NoSQL数据库的是？

A.Redis

B.MongoDB

C.HBase

D.Cassandra

答案：C

解析：HBase（C）基于HDFS实现列式存储，适合海量稀疏数据；Redis（A）是键值存储，MongoDB（B）是文档存储，Cassandra（D）是宽列存储（与列式存储有差异）。

以下哪个是ApacheFlink的流处理核心抽象？

A.Dataset

B.RDD

C.DataFrame

D.DataStream

答案：D

解析：Flink的流处理核心抽象是DataStream（D），Dataset（A）和DataFrame（C）是批处理抽象，RDD（B）是Spark的核心抽象。

HDFS中默认的块大小是？

A.32MB

B.64MB

C.128MB

D.256MB

答案：C

解析：HDFS默认块大小为128MB（C），设计目的是减少NameNode内存占用并提升大文件处理效率；早期版本为64MB（B），但当前主流配置为128MB。

特征工程中“将用户注册时间转换为注册时长”属于？

A.特征提取

B.特征选择

C.特征变换

D.特征构造

答案：D

解析：特征构造（D）指通过现有特征生成新特征（如时间戳转时长）；特征提取（A）是从原始数据中抽取关键信息（如图像像素转特征向量），特征选择（B）是筛选重要特征，特征变换（C）是对现有特征进行标准化/归一化等操作。

ETL流程中“T”代表的是？

A.Transfer

B.Transform

C.Track

D.Test

答案：B

解析：ETL是Extract（抽取）、Transform（转换，B）、Load（加载）的缩写，转换包括清洗、关联、聚合等操作。

数据湖（DataLake）与数据仓库（DataWarehouse）的核心差异是？

A.数据湖存储结构化数据，数据仓库存储多类型数据

B.数据湖在存储时定义模式（Schema-on-Write），数据仓库在使用时定义模式（Schema-on-Read）

C.数据湖支持实时分析，数据仓库仅支持批处理

D.数据湖存储原始数据，数据仓库存储经过处理的聚合数据

答案：D

解析：数据湖存储原始的多类型数据（结构化、半结构化、非结构化），在使用时定义模式（Schema-on-Read）；数据仓库存储经过清洗、转换的结构化数据，在存储时定义模式（Schema-on-Write）。因此D正确，其他选项均描述相反。

二、多项选择题（共10题，每题2分，共20分）

以下属于HDFS特性的有？

A.高容错性

B.适合小文件存储

C.流式数据访问

D.多用户并发写入

答案：AC

解析：HDFS通过副本机制实现高容错性（A正确），设计目标是流式访问大文件（C正确）；小文件会占用NameNode大量内存（B错误），HDFS仅支持单用户

您可能关注的文档

文档评论（0）

nastasia + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1103）.docxVIP