2025年新版二级大数的试卷及答案.docxVIP

  • 0
  • 0
  • 约6.75千字
  • 约 16页
  • 2026-05-27 发布于四川
  • 举报

2025年新版二级大数的试卷及答案

一、单项选择题(共20题,每题2分,共40分)

1.关于Hadoop3.x版本的核心改进,以下描述错误的是:

A.引入HDFS纠删码(ErasureCoding)以降低存储成本

B.YARN支持容器资源的动态调整(ResourceOvercommit)

C.MapReduce默认计算框架由v1升级为Tez

D.支持HDFS联邦(HDFSFederation)的跨命名空间操作

2.某Spark任务中,RDDA经过`join`操作与RDDB关联后提供RDDC。若RDDA的分区数为8,RDDB的分区数为12,且未显式设置`spark.sql.shuffle.partitions`,则RDDC的默认分区数为:

A.8

B.12

C.20

D.200

3.数据清洗过程中,针对“某电商用户年龄字段出现‘200’‘-5’”的异常值,最合理的处理方式是:

A.直接删除包含异常值的记录

B.用字段均值填充异常值

C.结合业务规则(如用户注册时的最小/最大年龄限制)修正

D.将异常值标记为缺失值后统一处理

4.关于HBase的存储模型,以下说法正确的是:

A.数据按行键(RowKey)字典序存储在Region中

B.每个列族(Column

文档评论(0)

1亿VIP精品文档

相关文档