2025年大数据工程师职称考试试卷及答案.docxVIP

  • 1
  • 0
  • 约8.68千字
  • 约 19页
  • 2026-01-15 发布于四川
  • 举报

2025年大数据工程师职称考试试卷及答案.docx

2025年大数据工程师职称考试试卷及答案

1.(单选)2025年3月,某省政务云将6PB的冷数据从本地HDFS迁往阿里云OSSIA,要求30天内完成且带宽峰值不超过5Gbps。工程师采用DistCp+JindoFS方案,在命令行中需额外添加哪组参数才能同时满足“限流”与“分片校验”两项硬性指标?

A.bandwidth5verifychecksumm1000

B.bandwidth5diffupdateskipCrc

C.bandwidth5verifycrcm800

D.bandwidth5updateatomicpb

答案:C

2.(单选)某Flink1.18实时作业消费Kafka3.5,Topic共120分区,作业并行度设为96,发现反压持续在map算子。若将并行度一次性调到144,同时开启AdaptiveScheduler,下列哪项描述最贴近生产实测结果?

A.反压消失,CPU利用率下降12%,延迟降低30%

B.反压向上游转移,Kafka消费延迟增大,checkpoint大小膨胀1.8倍

C.反压不变,网络缓冲区耗尽,TaskManager频繁被K8sOOMKill

D.反压消失,checkpoint耗时缩短20%,但Kafka出现Rebalance抖动

答案:B

3.(单选)在DeltaLake2.4中,对一张分区表执行MERGEINTO时,为减少文件扫描,应优先开启哪一项特性?

A.ZOrdering

B.ColumnMapping

C.PartitionedbyDynamicPruning

D.DataSkippingwithDVs

答案:C

4.(单选)某ClickHouse23.3集群,本地盘SSD15TB,每日新增400亿行、每行1.2KB。若采用TTL+TieredStorage策略,将7天后数据下沉至HDD,为保证merge速度,哪组参数组合最优?

A.max_bytes_to_merge_at_max_space=200G,background_pool_size=32

B.max_bytes_to_merge_at_max_space=500G,background_pool_size=16

C.max_bytes_to_merge_at_max_space=150G,background_pool_size=64

D.max_bytes_to_merge_at_max_space=300G,background_pool_size=8

答案:A

5.(单选)某Spark3.4StructuredStreaming作业以“availableNow”触发模式读取Kafka,完成一次微批后自动停止。若要求下次启动时精确从上次提交位点继续,需在checkpoint目录中保留哪类文件?

A.commits/

B.offsets/

C.sources/

D.metadata/

答案:B

6.(单选)在Trino426对Iceberg1.3表执行时间旅行查询SELECTFROMtASOFTIMESTAMP10:00:00,若元数据文件被归档至S3Glacier,最先抛出的异常是:

A.FileNotFoundException

B.AmazonS3Exception:Glacier

C.QueryRejectedException

D.UncheckedIOException:ReadTimeout

答案:B

7.(单选)某Pulsar2.11集群,namespace级设置dispatchThrottlingRatePerTopicInMsg=20000,某Topic分区数为16,则单分区理论最大推送消息数为:

A.20000

B.1250

C.320000

D.不受限制

答案:B

8.(单选)在Hive3.1.3中,使用Tez引擎,对ORC表执行INSERTOVERWRITE,若打开hive.optimize.sort.dynamic.partition=true,其核心价值是:

A.减少小文件

B.避免分区列排序导致的OOM

C.动态分区自动排序,降低内存峰值

D.提升压缩率

答案:C

9.(单选)某Doris2.0集群,3FE+9BE,测试发现streamload单并发仅50MB/s,经排查BE磁盘util

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档