2025年新版大数据专业考试题及答案.docxVIP

下载本文档

1
0
约1.06万字
约 24页
2026-03-08 发布于四川
举报

2025年新版大数据专业考试题及答案.docx

2025年新版大数据专业考试题及答案

一、单项选择题（每题2分，共20分）

1.关于Hadoop4.0的新特性，以下描述错误的是（）

A.引入云原生架构，支持Kubernetes原生部署

B.优化HDFS的纠删码策略，默认采用RS-6-3编码

C.废弃YARN的ResourceManager高可用方案，改用ZooKeeper独立管理

D.增强对对象存储的支持，支持S3、OSS等外部存储作为底层存储

2.以下关于SparkShuffle机制的描述，正确的是（）

A.Spark3.0之后默认使用Sort-basedShuffle，不再支持Hash-basedShuffle

B.ShuffleWrite阶段数据会先写入内存缓冲区，超过阈值后溢写磁盘

C.ShuffleRead阶段拉取数据时，使用BloomFilter过滤无效分区

D.开启press后，仅对ShuffleWrite阶段的数据压缩，Read阶段不压缩

3.数据湖（DataLake）与传统数据仓库（DataWarehouse）的核心差异在于（）

A.数据存储格式：数据湖使用列式存储，数据仓库使用行式存储

B.数据处理模式：数据湖支持批处理，数据仓库支持实时处理

C.数据使用阶段：数据湖存储原始数据（RawData），数据仓库存储已清洗的结构化数据

D.元数据管理：数据湖依赖外部元数据系统，数据仓库内置元数据引擎

4.隐私计算技术中，既能保护数据隐私又能输出明文结果的是（）

A.联邦学习（FederatedLearning）

B.安全多方计算（MPC）

C.同态加密（HomomorphicEncryption）

D.差分隐私（DifferentialPrivacy）

5.以下实时计算框架中，支持“Exactly-Once”语义且基于事件时间（EventTime）处理的是（）

A.ApacheStorm

B.ApacheFlink

C.ApacheSparkStreaming（微批处理模式）

D.ApacheKafkaStreams

6.数据血缘分析（DataLineage）的主要作用是（）

A.统计数据存储空间占用

B.追踪数据从产生到最终应用的全链路路径

C.评估数据质量的完整性和一致性

D.优化数据查询的执行计划

7.在机器学习特征工程中，对“用户访问时间（2025-03-1514:30:00）”字段进行特征提取时，以下操作最不合理的是（）

A.提取小时（14）作为离散特征

B.计算与当天零点的时间差（秒数）作为连续特征

C.直接保留完整时间字符串作为特征

D.标记是否为工作日（是/否）作为二值特征

8.分布式存储系统中，以下一致性模型最严格的是（）

A.最终一致性（EventualConsistency）

B.会话一致性（SessionConsistency）

C.强一致性（StrongConsistency）

D.单调读一致性（MonotonicReadConsistency）

9.流批一体（Batch-StreamingUnification）的核心实现目标是（）

A.统一流处理和批处理的API接口与计算逻辑

B.合并流数据和批数据的存储介质（如HDFS与Kafka）

C.消除流处理与批处理的延迟差异（均达到毫秒级）

D.统一流处理和批处理的资源调度策略（如YARN与K8s）

10.数据治理的核心指标不包括（）

A.数据准确性（Accuracy）

B.数据可访问性（Accessibility）

C.数据实时性（Real-time）

D.数据合规性（Compliance）

二、填空题（每空1分，共20分）

1.HDFS3.0默认块大小为______GB，相比2.x的128MB，主要为了减少______开销。

2.SparkRDD的五大特性包括：分区列表、依赖关系、______、______、分区器（可选）。

3.Flink中时间类型分为事件时间（EventTime）、摄入时间（IngestionTime）和______，其中______需要依赖水印（Watermark）机制处理乱序数据。

4.数据仓库（DW）的典型三层架构包括：______层（存储原始数据）、______层（存储清洗/整合后的数据）、应用层（存储指标/报表数据）。

2025年新版大数据专业考试题及答案.docxVIP

2025年新版大数据专业考试题及答案.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档