2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1124）.docxVIP

下载本文档

0
0
约8.1千字
约 11页
2025-12-04 发布于上海
举报
版权申诉

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1124）.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据工程师职业资格认证考试试卷

一、单项选择题（共10题，每题1分，共10分）

大数据的核心特征“4V”不包括以下哪项？

A.Volume（大量）

B.Velocity（高速）

C.Veracity（真实性）

D.Variety（多样）

答案：C

解析：大数据的经典“4V”特征为Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）。Veracity（真实性）是部分扩展定义中提及的补充特征，但不属于核心“4V”。

HDFS默认的块大小是？

A.32MB

B.64MB

C.128MB

D.256MB

答案：C

解析：HDFS设计用于存储大文件，默认块大小为128MB（Hadoop2.x及以上版本），较大的块大小可减少NameNode元数据存储压力，并提升数据传输效率。

Spark中RDD的persist()方法默认的持久化级别是？

A.MEMORY_ONLY

B.MEMORY_AND_DISK

C.MEMORY_ONLY_SER

D.DISK_ONLY

答案：A

解析：persist()默认使用MEMORY_ONLY级别，即仅将RDD存储在内存中，不进行序列化；若内存不足则部分分区会被丢弃，需重新计算。

Flink中用于处理乱序事件的时间类型是？

A.处理时间（ProcessingTime）

B.事件时间（EventTime）

C.摄入时间（IngestionTime）

D.窗口时间（WindowTime）

答案：B

解析：事件时间（EventTime）基于数据本身携带的时间戳，是处理乱序数据的核心机制；处理时间基于算子处理数据的系统时间，无法应对乱序场景。

Hive中推荐使用的列式存储格式是？

A.TextFile

B.SequenceFile

C.ORC

D.Avro

答案：C

解析：ORC（OptimizedRowColumnar）是Hive优化的列式存储格式，支持高效压缩、索引和谓词下推，相比TextFile等行式存储能显著提升查询性能。

Kafka中消费者组（ConsumerGroup）的核心作用是？

A.保证消息有序性

B.实现负载均衡

C.提高生产者吞吐量

D.管理主题分区

答案：B

解析：消费者组通过将主题分区分配给组内不同消费者，实现消息的并行消费，从而达到负载均衡的目的；同一分区内消息对组内消费者是独占的。

以下哪种分布式计算框架更适合迭代计算场景？

A.MapReduce

B.Spark

C.Storm

D.Flink

答案：B

解析：Spark基于内存计算的RDD模型，支持数据在内存中多次迭代使用，相比MapReduce（每次计算需读写磁盘）更适合机器学习等迭代场景。

数据仓库分层中，用于存储明细数据的层是？

A.ODS（原始数据层）

B.DWD（明细数据层）

C.DWS（汇总数据层）

D.ADS（应用数据层）

答案：B

解析：DWD（DataWarehouseDetail）层存储经过清洗、规范化的明细数据，是数据仓库的核心层；ODS层为原始数据的直接镜像，未做深度处理。

HBase属于以下哪种NoSQL数据库类型？

A.键值存储（Key-Value）

B.列族存储（Column-Family）

C.文档存储（Document）

D.图存储（Graph）

答案：B

解析：HBase基于GoogleBigtable设计，采用列族（ColumnFamily）存储模型，适合存储海量稀疏数据（如日志、时序数据）。

机器学习中，对特征进行“归一化”处理的主要目的是？

A.减少特征数量

B.消除特征量纲差异

C.提高模型泛化能力

D.增强特征可解释性

答案：B

解析：归一化（如Min-MaxScaling）通过将特征值缩放到[0,1]区间，消除不同特征因量纲（如米和千克）导致的数值差异，避免模型对大数值特征过度敏感。

二、多项选择题（共10题，每题2分，共20分）

以下属于Hadoop核心生态组件的有？

A.HDFS

B.YARN

C.MapReduce

D.Hive

答案：ABCD

解析：Hadoop核心生态包括存储层（HDFS）、资源管理层（YARN）、计算框架（MapReduce），以及上层工具（Hive）。HBase、Spark等属于扩展组件。

Spark的部署模式包括？

A.Standalone

B.YARN

C.Mesos

D.Kubernetes

答案：ABCD

解析：Spark支持Standalone（独立集群）、YARN（Hadoop资源管理）、Mesos（通用资源管理）和Kubernetes（容器编排）四种部署模式。

数据清洗的主要

您可能关注的文档

文档评论（0）

eureka + 关注: 实名认证

文档贡献者

中国证券投资基金业从业证书、计算机二级持证人

好好学习，天天向上

咨询Ta 进入空间

领域认证该用户于2025年03月25日上传了中国证券投资基金业从业证书、计算机二级

1亿VIP精品文档

更多 >

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1124）.docxVIP