2026年大数据笔试题目及答案.docxVIP

  • 0
  • 0
  • 约1.18万字
  • 约 24页
  • 2026-01-21 发布于四川
  • 举报

2026年大数据笔试题目及答案

一、单项选择题(每题2分,共20分)

1.2026年主流流处理框架Flink2.0中,以下哪项特性首次被引入以支持“批流一体”的细粒度资源调度?

A.DynamicSlotSharing

B.AdaptiveBatchScheduler

C.ReactiveModeonKubernetes

D.QueryableStateStore

答案:B

解析:Flink2.0将AdaptiveBatchScheduler作为默认调度器,可根据作业DAG动态调整TaskManager的Slot粒度,实现毫秒级延迟的批流混合执行。

2.在DataMesh去中心化架构中,负责“数据产品”全生命周期治理的角色是:

A.DomainDataSteward

B.CentralCDO

C.PlatformSRE

D.DataMarketplaceAuditor

答案:A

解析:DomainDataSteward是领域数据管家,既懂业务也懂数据,负责把领域数据封装成可发现、可消费、可观测的数据产品。

3.某电商公司使用DeltaLake3.0,欲在30分钟内捕获上游MySQL的变更并实时修正推荐模型特征,下列哪项技术组合延迟最低?

A.Debezium→Kafka→DeltaLiveTable

B.Maxwell→Pulsar→DeltaStreamingMerge

C.Canal→RocketMQ→DeltaLakeUPSERT

D.FlinkCDC→Kafka→DeltaLakeChangeDataFeed

答案:D

解析:FlinkCDC直接对接Binlog,Kafka只做顺序缓冲,DeltaLakeCDF(ChangeDataFeed)可以在Commit层面零拷贝地暴露变更文件,端到端延迟可压到5秒以内。

4.2026年发布的Spark4.0中,消除小文件合并的新执行策略是:

A.AdaptiveShuffleCoalesce

B.CommitCoordinator

C.OptimizedWriterForcing

D.AutoTableCompaction

答案:D

解析:AutoTableCompaction在Driver端根据写入量阈值自动触发合并,无需额外运行optimize命令,且与ACID事务完全兼容。

5.在数据血缘图谱中,以下哪种边属性最能体现“列级变换逻辑”?

A.dependsOn

B.derivedFrom

C.transformedBy

D.lineageFlow

答案:C

解析:transformedBy边携带UDF指纹、SQL文本摘要及版本哈希,可精确还原列级变换语义。

6.某市政府开放数据平台采用“隐私计算+可信执行环境”模式,对外提供统计查询,其安全基线应优先满足:

A.GDPRArticle6.1(b)

B.ISO/IEC27701

C.GB/T37918-2019

D.FIPS140-3Level3

答案:D

解析:FIPS140-3Level3要求硬件级防物理探针,TEE内存加密与密钥管理必须过此认证,才能抵御近场攻击。

7.在FeatureStore统一特征平台中,以下哪项技术最能解决“训练-服务”偏斜(Training-ServingSkew)?

A.Point-in-timeCorrectJoin

B.TTL-basedCacheRefresh

C.OnlineTransformationLambda

D.Dual-writewithKafkaExactly-once

答案:A

解析:Point-in-timeCorrectJoin通过事件时间戳对齐,保证离线回溯与实时请求看到的特征值完全一致。

8.2026年主流云厂商的ServerlessSpark默认计费粒度变为:

A.1秒

B.100毫秒

C.1个Task

D.1MBShuffle

答案:B

解析:毫秒级计费促使引擎在Executor空闲时立即回收,节省30%以上成本。

9.下列关于数据合约(DataContract)的描述,错误的是:

A.采用JSONSchema定义字段语义

B.支持向后兼容的EVOLUTION策略

C.通过CIGate强制

文档评论(0)

1亿VIP精品文档

相关文档