2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1126）.docxVIP

下载本文档

0
0
约8.24千字
约 11页
2025-12-11 发布于上海
举报
版权申诉

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1126）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据工程师职业资格认证考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Hadoop生态中负责分布式存储的核心组件？

A.Spark

B.HDFS

C.YARN

D.HBase

答案：B

解析：Hadoop核心组件包括HDFS（分布式文件系统，负责存储）和YARN（资源管理）。选项A（Spark）是计算框架，C（YARN）是资源管理，D（HBase）是基于HDFS的列式数据库，因此正确答案为B。

数据仓库（DataWarehouse）的核心特性是？

A.支持高并发事务操作

B.面向主题、集成、稳定、随时间变化

C.实时处理流数据

D.存储非结构化数据

答案：B

解析：数据仓库的四大特性是面向主题、集成性、稳定性（非易失）、随时间变化（支持历史数据）。选项A是OLTP数据库特性，C是流处理系统特性，D是数据湖特性，因此正确答案为B。

以下哪项不属于SparkRDD的转换操作（Transformation）？

A.map()

B.reduce()

C.filter()

D.groupByKey()

答案：B

解析：Spark操作分为转换（返回新RDD）和行动（触发计算）。reduce()是行动操作（Action），会触发实际计算并返回结果；其他选项均为转换操作，因此正确答案为B。

在数据清洗中，处理“年龄字段出现-5”的问题属于？

A.缺失值处理

B.异常值检测与修正

C.重复值删除

D.格式标准化

答案：B

解析：年龄为负数属于逻辑错误的异常值，需通过规则检测（如年龄范围0-150）并修正；缺失值指字段为空，重复值指完全相同的记录，格式标准化指统一数据格式（如日期格式），因此正确答案为B。

实时计算框架Flink的核心抽象是？

A.Dataset

B.DStream

C.DataFrame

D.DataStream

答案：D

解析：Flink的核心抽象是DataStream（流数据）和DataSet（批数据，已逐步被DataStream统一）；DStream是SparkStreaming的抽象，Dataset/DataFrame是SparkSQL的抽象，因此正确答案为D。

以下哪种存储方案适合海量非结构化数据的低成本存储？

A.MySQL

B.HBase

C.HDFS

D.Redis

答案：C

解析：HDFS是分布式文件系统，适合存储大文件（如日志、图片），成本低；MySQL是关系型数据库，HBase是列式数据库（适合随机读写），Redis是内存数据库，因此正确答案为C。

元数据（Metadata）管理的核心作用是？

A.加速数据计算

B.描述数据的来源、结构和关联关系

C.加密敏感数据

D.压缩存储数据

答案：B

解析：元数据是“关于数据的数据”，用于记录数据的来源、字段含义、血缘关系等，帮助理解和管理数据；加速计算依赖计算框架优化，加密是安全手段，压缩是存储优化，因此正确答案为B。

数据安全中“脱敏”技术的主要目的是？

A.防止数据泄露时敏感信息被识别

B.提升数据存储效率

C.保证数据完整性

D.实现数据实时同步

答案：A

解析：脱敏（如替换真实姓名为“某先生”）是为了保护隐私，即使数据泄露也无法还原真实信息；存储效率依赖压缩，完整性依赖校验，实时同步依赖消息队列，因此正确答案为A。

机器学习模型与大数据平台集成时，关键需求不包括？

A.实时特征抽取

B.模型在线推理

C.数据格式完全一致

D.模型监控与迭代

答案：C

解析：集成时需支持实时特征（如Flink计算）、在线推理（如用TensorFlowServing）、模型监控（如检测漂移），但数据格式可通过ETL转换，无需完全一致，因此正确答案为C。

ETL流程中“T”（Transform）的核心任务是？

A.从源系统抽取数据

B.将数据加载到目标系统

C.对数据进行清洗、转换和集成

D.监控流程运行状态

答案：C

解析：ETL中E（抽取）、T（转换，如清洗、关联、计算）、L（加载），因此正确答案为C。

二、多项选择题（共10题，每题2分，共20分）

以下属于分布式计算框架的有？（至少2个正确选项）

A.HadoopMapReduce

B.Spark

C.HBase

D.Flink

答案：ABD

解析：MapReduce（批处理）、Spark（批流一体）、Flink（流处理）均为计算框架；HBase是存储系统（列式数据库），因此正确答案为ABD。

数据倾斜（DataSkew）的常见解决方法包括？

A.对倾斜键加盐哈希，拆分计算

B.增加任务并行度

C.增大节点内存

D.预处理时对倾斜数据单独分组

答案：ABD

解析：数据倾斜指部分分区数据量远大

您可能关注的文档

文档评论（0）

MenG + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1126）.docxVIP