2025年大数据基础理论知识考核试题及答案.docxVIP

2025年大数据基础理论知识考核试题及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年大数据基础理论知识考核试题及答案

一、单项选择题(每题2分,共30分)

1.在Hadoop3.x的YARN资源调度中,默认的调度器是

A.FIFOScheduler

B.FairScheduler

C.CapacityScheduler

D.DominantResourceCalculator

答案:C

解析:Hadoop3.x安装后,yarn-site.xml中默认配置项yarn.resourcemanager.scheduler.class指向org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler。

2.某电商公司使用Flink实时计算UV,当设置并行度为128时,每个并行子任务在Checkpoint时向HDFS写入32MB状态数据,若Checkpoint间隔30s,理论写入吞吐约为

A.136MB/s

B.273MB/s

C.546MB/s

D.1.1GB/s

答案:B

解析:128×32MB÷30s≈136MB/s,但Flink的Checkpoint采用两阶段提交,实际落盘数据量翻倍,故136×2≈273MB/s。

3.在Spark3.4的AdaptiveQueryExecution框架下,当运行时统计信息发现某Join的build侧大小为8GB,而broadcast阈值设置为10MB时,系统会

A.忽略统计信息,仍按shufflehashjoin执行

B.自动将阈值临时提升到8GB并广播

C.将阈值动态调整为64MB并尝试广播

D.保持原有阈值,强制shufflesortmergejoin

答案:C

解析:AQE采用保守策略,按“统计量×膨胀系数”估算,若仍小于64MB则广播,否则回退。

4.某列式存储格式采用PFOR压缩算法对32位整数列进行处理,压缩比为6:1,原始列占2.4GB,则压缩后大小约为

A.400MB

B.512MB

C.600MB

D.768MB

答案:A

解析:2.4GB÷6=0.4GB≈400MB。

5.在Kafka2.8的KRaft模式下,以下关于元数据日志的描述正确的是

A.元数据日志与业务topic共用同一分区目录

B.元数据日志采用LZ4压缩,不可修改

C.元数据日志的复制因子必须为奇数

D.元数据日志的Leader选举由Quorum控制器负责

答案:D

解析:KRaft移除了ZooKeeper,控制器自身通过Raft协议选举,元数据日志由Quorum管理。

6.某企业基于DeltaLake1.2构建数仓,对一张50亿行的表执行OPTIMIZE后,文件数从12000压缩到96,则平均文件大小约

A.128MB

B.256MB

C.512MB

D.1GB

答案:C

解析:假设未压缩前平均8MB,总大小96GB;压缩后96个文件,平均1GB,但Delta默认targetSize=1GB,若开启zstd压缩,实际物理大小约512MB。

7.在Hive4.0的LLAP执行引擎中,以下缓存单元粒度最细的是

A.文件块

B.条带(Stripe)

C.ORB索引块

D.向量批(VectorizedBatch)

答案:D

解析:LLAP将数据按向量批(默认1024行)缓存在off-heap,实现NUMA友好。

8.某时序数据库采用LSM-Tree存储,level0到level1的合并称为MinorCompaction,其触发条件之一是level0文件数超过

A.2

B.4

C.6

D.8

答案:B

解析:典型实现如RocksDB,level0文件数超过4触发Minor。

9.在Presto0.281的Cost-BasedOptimizer中,估算Join代价时采用的指标是

A.输出行数×CPU系数

B.输入字节数×网络系数

C.输出行数×输入行数×选择率

D.构建侧哈希表内存×探测侧行数

答案:D

解析:Pres

文档评论(0)

136****4675 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档