2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1216）.docxVIP

下载本文档

0
0
约7.37千字
约 11页
2025-12-22 发布于上海
举报
版权申诉

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1216）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据工程师职业资格认证考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是数据仓库（DataWarehouse）的核心特点？

A.支持实时数据写入

B.面向主题的结构化数据存储

C.存储非结构化数据为主

D.支持高并发的在线事务处理（OLTP）

答案：B

解析：数据仓库的核心特点是面向主题、集成的、非易失的、随时间变化的数据集合，主要用于支持决策分析（OLAP）。A错误，实时写入是实时数据库的特点；C错误，非结构化数据存储是数据湖的典型场景；D错误，OLTP是关系型数据库的核心功能。

在Hadoop生态中，Hive的主要功能是？

A.分布式文件存储

B.分布式计算框架

C.基于SQL的数据仓库工具

D.实时流处理引擎

答案：C

解析：Hive是基于Hadoop的数仓工具，提供类SQL的HiveQL语言，将SQL转换为MapReduce任务执行。A对应HDFS，B对应MapReduce，D对应Flink或Storm。

数据清洗中“处理缺失值”的常用方法不包括？

A.删除包含缺失值的记录

B.用字段均值填充缺失值

C.用相邻记录值插值填充

D.直接保留缺失值用于后续建模

答案：D

解析：缺失值会影响模型准确性，需处理（删除、填充、插值等）。D错误，直接保留可能导致计算错误或模型偏差。

以下哪种存储系统适合存储海量半结构化日志数据？

A.MySQL

B.HBase

C.Redis

D.Oracle

答案：B

解析：HBase是基于HDFS的列式分布式数据库，适合存储海量、稀疏的半结构化数据（如日志）。A/D是关系型数据库，适合结构化事务数据；C是内存键值存储，适合缓存。

以下属于流处理框架的是？

A.HadoopMapReduce

B.SparkCore

C.Flink

D.Hive

答案：C

解析：Flink是典型的流处理框架，支持事件时间、状态管理和低延迟处理。A/B是批处理框架，D是数仓工具。

数据湖（DataLake）与数据仓库的主要区别是？

A.数据湖仅存储结构化数据

B.数据湖在存储阶段不进行模式定义

C.数据仓库支持非结构化数据存储

D.数据湖的分析性能更高

答案：B

解析：数据湖采用“读时模式”（Schema-on-Read），存储原始数据（结构化、半结构化、非结构化）后再定义模式；数据仓库采用“写时模式”（Schema-on-Write）。A/C错误，数据湖支持多类型数据；D错误，数仓优化后分析性能通常更高。

以下哪种索引类型适用于HBase？

A.B+树索引

B.全局二级索引

C.行键（RowKey）索引

D.全文索引

答案：C

解析：HBase通过行键（RowKey）直接定位数据，不支持全局二级索引（需借助协处理器实现）。A是关系型数据库索引，B需额外开发，D是Elasticsearch的典型索引。

ETL过程中“转换（Transform）”的核心目标是？

A.将数据从源系统加载到目标系统

B.确保数据格式符合目标系统要求

C.从多个源系统抽取数据

D.清理数据中的错误和重复值

答案：B

解析：转换阶段负责数据格式调整、业务规则应用（如计算新字段）、标准化等，使数据符合目标系统需求。A是加载（Load），C是抽取（Extract），D是清洗（属于转换的一部分）。

分布式计算中“数据倾斜”的主要表现是？

A.计算节点内存普遍不足

B.部分任务执行时间远长于其他任务

C.网络带宽占用率过高

D.所有任务均超时失败

答案：B

解析：数据倾斜指某一Key的分布异常集中，导致对应任务处理的数据量远大于其他任务，表现为任务执行时间显著差异。A/C是资源问题，D是系统性错误。

以下哪项不属于大数据机器学习平台的核心功能？

A.数据特征工程

B.模型训练与调优

C.实时数据采集

D.模型部署与监控

答案：C

解析：实时数据采集属于数据集成或流处理范畴，机器学习平台核心功能包括特征工程、模型训练、部署监控等。

二、多项选择题（共10题，每题2分，共20分）

以下属于Hadoop生态核心组件的有？

A.HDFS

B.Flink

C.YARN

D.Hive

答案：ACD

解析：Hadoop核心组件包括HDFS（存储）、YARN（资源管理）、MapReduce（计算），Hive是上层应用。Flink是独立流处理框架，不属于Hadoop原生生态。

数据清洗的主要方法包括？

A.处理缺失值

B.纠正数据格式错误

C.合并重复记录

D.数据标准化（如单位统一）

答案：ABCD

解析：数据清洗涵盖缺失值处理、格式纠正、去重、标准化等步骤，目标是提高数据质量。

分布式文件系统（如HDFS）的特性包括？

A.高容错性（副

您可能关注的文档

文档评论（0）

gyf70 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1216）.docxVIP