2026年大数据技术与应用考试试题及答案.docxVIP

  • 0
  • 0
  • 约8.81千字
  • 约 19页
  • 2026-02-07 发布于四川
  • 举报

2026年大数据技术与应用考试试题及答案.docx

2026年大数据技术与应用考试试题及答案

一、单项选择题(每题2分,共20分)

1.2026年主流流处理框架Flink在Exactly-Once语义实现中,以下哪项技术起到了决定性作用?

A.异步快照(AsynchronousBarrierSnapshot)

B.水印(Watermark)

C.窗口累加器(WindowAccumulator)

D.状态后端(StateBackend)

答案:A

解析:Flink通过异步屏障快照机制,在分布式环境下无需停止整个数据流即可完成一致性检查点,从而保证Exactly-Once。水印仅用于事件时间处理,窗口累加器用于聚合计算,状态后端仅提供存储介质,无法单独保证语义。

2.在DataMesh架构中,“领域数据产品”必须满足的最小特征集合不包括:

A.可发现

B.可寻址

C.可信赖

D.可压缩

答案:D

解析:DataMesh四大核心特征为可发现、可寻址、可信赖、自描述,压缩性属于性能优化范畴,并非最小特征。

3.某电商公司使用DeltaLake3.0构建近实时数仓,若要保证“时间旅行”查询在7天内任意版本秒级回退,以下配置最佳的是:

A.delta.logRetentionDuration=interval7days且delta.checkpointInterval=10

B.delta.logRetentionDuration=interval30days且delta.checkpointInterval=100

C.delta.logRetentionDuration=interval7days且delta.checkpointInterval=1000

D.delta.logRetentionDuration=interval1day且delta.checkpointInterval=5

答案:A

解析:7天保留期满足需求,checkpoint间隔10次事务既保证读取性能又避免日志膨胀,30天过长,1天过短,1000次间隔过大导致回放耗时。

4.在PySpark3.5中,使用PandasAPIonSpark进行大规模特征工程时,若出现“Pythonworkerexitedunexpectedly”异常,最可能触发的底层原因是:

A.JVM堆外内存不足

B.Python端Arrow内存池耗尽

C.HiveMetastore连接超时

D.DynamicResourceAllocation关闭

答案:B

解析:PandasAPIonSpark依赖Arrow进行零拷贝序列化,当数据量超过Arrow内存池上限时,Python进程直接崩溃,JVM端无感知。

5.2026年国内《数据跨境流动安全评估办法》升级后,对个人信息出境场景的“累计敏感个人信息规模”阈值调整为:

A.10万条

B.50万条

C.100万条

D.500万条

答案:B

解析:2026年2月修订版将敏感个人信息阈值从1万条放宽至50万条,但要求企业一年内完成数据出境风险自评估并备案。

6.在Ray2.9集群中,当启用“零拷贝”对象存储模式时,以下对象序列化方式默认被禁用:

A.Pickle5

B.ArrowPlasma

C.MessagePack

D.ApacheArrowIPC

答案:A

解析:Pickle5会触发Python解释器级别的内存拷贝,与Plasma的零拷贝机制冲突,Ray自动降级为ArrowIPC。

7.某市政府构建城市级时空数据湖,采用Hudi0.15作为存储层,若要求支持“秒级Upsert且保留全局索引”,最适合的索引类型为:

A.BloomIndex

B.BucketIndex

C.HBaseIndex

D.SimpleIndex

答案:C

解析:HBaseIndex将主键映射托管至HBase,实现毫秒级点查,满足秒级Upsert;Bloom存在假阳性,Bucket需预分桶,Simple需全表扫描。

8.在PrestoDB0.450中,开启“AdaptiveQueryExecution”后,以下运行时优化不会自动发生的是:

A.Join算法从Broadcast切换为Partitioned

B.聚合下推至Connector

C.动态过滤下推

D.运行时索引选择

答案:B

解析:AQE仅对执行计划片段进行动态调整,聚合下推需Connector显式支持,不在AQE范畴。

9.某金融公司使用Kafka3.7进行事件溯源,若要保证单分区严格有序且吞吐≥50万条/秒,最佳实践是:

A.单分区+snapp

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档