2025年新版大数据专业考试题及答案.docxVIP

  • 1
  • 0
  • 约1.06万字
  • 约 24页
  • 2026-03-08 发布于四川
  • 举报

2025年新版大数据专业考试题及答案

一、单项选择题(每题2分,共20分)

1.关于Hadoop4.0的新特性,以下描述错误的是()

A.引入云原生架构,支持Kubernetes原生部署

B.优化HDFS的纠删码策略,默认采用RS-6-3编码

C.废弃YARN的ResourceManager高可用方案,改用ZooKeeper独立管理

D.增强对对象存储的支持,支持S3、OSS等外部存储作为底层存储

2.以下关于SparkShuffle机制的描述,正确的是()

A.Spark3.0之后默认使用Sort-basedShuffle,不再支持Hash-basedShuffle

B.ShuffleWrite阶段数据会先写入内存缓冲区,超过阈值后溢写磁盘

C.ShuffleRead阶段拉取数据时,使用BloomFilter过滤无效分区

D.开启press后,仅对ShuffleWrite阶段的数据压缩,Read阶段不压缩

3.数据湖(DataLake)与传统数据仓库(DataWarehouse)的核心差异在于()

A.数据存储格式:数据湖使用列式存储,数据仓库使用行式存储

B.数据处理模式:数据湖支持批处理,数据仓库支持实时处理

C.数据使用阶段:数据湖存储原始数据(RawData),数据仓库存储已清洗的结构化数据

D.元数据管理:数据湖依赖外部元数据系统,数据仓库内置元数据引擎

4.隐私计算技术中,既能保护数据隐私又能输出明文结果的是()

A.联邦学习(FederatedLearning)

B.安全多方计算(MPC)

C.同态加密(HomomorphicEncryption)

D.差分隐私(DifferentialPrivacy)

5.以下实时计算框架中,支持“Exactly-Once”语义且基于事件时间(EventTime)处理的是()

A.ApacheStorm

B.ApacheFlink

C.ApacheSparkStreaming(微批处理模式)

D.ApacheKafkaStreams

6.数据血缘分析(DataLineage)的主要作用是()

A.统计数据存储空间占用

B.追踪数据从产生到最终应用的全链路路径

C.评估数据质量的完整性和一致性

D.优化数据查询的执行计划

7.在机器学习特征工程中,对“用户访问时间(2025-03-1514:30:00)”字段进行特征提取时,以下操作最不合理的是()

A.提取小时(14)作为离散特征

B.计算与当天零点的时间差(秒数)作为连续特征

C.直接保留完整时间字符串作为特征

D.标记是否为工作日(是/否)作为二值特征

8.分布式存储系统中,以下一致性模型最严格的是()

A.最终一致性(EventualConsistency)

B.会话一致性(SessionConsistency)

C.强一致性(StrongConsistency)

D.单调读一致性(MonotonicReadConsistency)

9.流批一体(Batch-StreamingUnification)的核心实现目标是()

A.统一流处理和批处理的API接口与计算逻辑

B.合并流数据和批数据的存储介质(如HDFS与Kafka)

C.消除流处理与批处理的延迟差异(均达到毫秒级)

D.统一流处理和批处理的资源调度策略(如YARN与K8s)

10.数据治理的核心指标不包括()

A.数据准确性(Accuracy)

B.数据可访问性(Accessibility)

C.数据实时性(Real-time)

D.数据合规性(Compliance)

二、填空题(每空1分,共20分)

1.HDFS3.0默认块大小为______GB,相比2.x的128MB,主要为了减少______开销。

2.SparkRDD的五大特性包括:分区列表、依赖关系、______、______、分区器(可选)。

3.Flink中时间类型分为事件时间(EventTime)、摄入时间(IngestionTime)和______,其中______需要依赖水印(Watermark)机制处理乱序数据。

4.数据仓库(DW)的典型三层架构包括:______层(存储原始数据)、______层(存储清洗/整合后的数据)、应用层(存储指标/报表数据)。

5.Kafka中

文档评论(0)

1亿VIP精品文档

相关文档