2025年大数据课程期末考试复习题及答案.docxVIP

2025年大数据课程期末考试复习题及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年大数据课程期末考试复习题及答案

一、单项选择题(每题2分,共20分)

1.2025年主流分布式计算框架中,默认采用“内存优先、磁盘兜底”策略的是

A.HadoopMapReduce2.9

B.Spark3.5

C.Flink1.18

D.Storm2.6

答案:B

2.在DeltaLake3.0中,用于解决“并发写冲突”的核心协议是

A.Two-PhaseCommit

B.OptimisticConcurrencyControl

C.Paxos

D.Raft

答案:B

3.某电商公司使用Hudi0.14构建近实时数仓,要求上游MySQL变更10秒内可见,最适合的索引类型是

A.BloomIndex

B.HBaseIndex

C.BucketIndex

D.Record-levelIndex

答案:D

4.当使用PySpark3.5读取Kafka3.7时,设置startingOffsets=latest意味着

A.从最早偏移量开始

B.从最新偏移量开始

C.从指定时间戳开始

D.从检查点开始

答案:B

5.在ClickHouse23.12中,对高基数字符串列进行去重精确计数,应优先使用

A.uniqCombined

B.uniqExact

C.uniqHLL12

D.uniqTheta

答案:B

6.某模型训练任务使用Ray2.9的DatasetAPI,设置global_shuffle=True主要影响

A.网络带宽

B.磁盘I/O

C.随机种子

D.数据偏斜

答案:D

7.在TensorFlow2.15的tf.data管道中,使用cache()后再调用repeat(),其执行顺序是

A.先缓存再无限重复

B.先重复再缓存

C.二者并行

D.抛出异常

答案:A

8.某企业使用Iceberg1.4,需要回溯到7天前的快照,应执行

A.rollbackToSnapshot

B.rollbackToTime

C.cherry-pick

D.fast-forward

答案:B

9.在Presto0.435中,开启动态过滤(DynamicFiltering)后,Build端完成扫描会

A.立即触发Probe端开始

B.等待Probe端完成

C.广播小表

D.关闭Exchange

答案:A

10.当使用dbt1.8进行增量模型开发时,以下宏用于生成可重复使用的唯一键

A.surrogate_key

B.hashed_key

C.composite_key

D.incremental_key

答案:A

二、多项选择题(每题3分,共15分)

11.以下属于Flink1.18支持的精确一次(Exactly-Once)端到端语义必要组件

A.CheckpointBarrier

B.TwoPhaseCommitSink

C.KafkaTransaction

D.PulsarSubscription

答案:A、B、C

12.在Snowflake8.22中,能够触发Micro-PartitionPruning的过滤条件有

A.EQUALITY

B.RANGE

C.LIKE前缀匹配

D.REGEXP

答案:A、B、C

13.使用Polars0.20进行超大规模ETL时,以下做法可降低内存峰值

A.set_streaming(True)

B.使用lazy().filter().select()链式

C.开启parallel=True

D.将字符串转为Categorical

答案:A、B、D

14.关于FeatureStoreFeast0.37的特性,正确的有

A.支持Spark离线存储

B.提供Redis在线Serving

C.内置DynamoDBConnector

D.支持Point-in-timeCorrectJoin

答案:A、B、D

15.在Kubernetes1.30上运行Airflow2.9,实现任务级弹性伸缩可依赖

A.KEDA

B.CeleryExecutor

D.KubernetesExecutor

D.AirflowSchedulerHA

文档评论(0)

156****9588 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档