2025年新版大数据分析试题及答案.docxVIP

  • 1
  • 0
  • 约5.52千字
  • 约 14页
  • 2026-06-01 发布于四川
  • 举报

2025年新版大数据分析试题及答案

一、单项选择题(每题2分,共20分)

1.在大数据分析中,处理数据倾斜(DataSkew)时,以下哪种方法不适用于Spark场景?

A.增加并行度

B.对倾斜键添加随机前缀后聚合,再去除前缀二次聚合

C.使用Hive的DISTRIBUTEBY重新分区

D.对倾斜数据单独采样并调整计算逻辑

2.特征工程中,若某特征为“用户最近30天登录次数”(取值范围0-200),且业务目标是预测用户流失,以下哪种处理方式最合理?

A.直接归一化(Min-Max)后输入模型

B.分箱为“0次”“1-5次”“6-15次”“16次以上”

C.取对数变换(log(x+1))

D.标准化(Z-Score)后输入模型

3.关于机器学习模型评估,以下说法错误的是?

A.对于类别不平衡的二分类问题,F1-score比准确率更可靠

B.ROC曲线下面积(AUC)对类别不平衡不敏感

C.均方根误差(RMSE)比平均绝对误差(MAE)更易受异常值影响

D.交叉验证(CrossValidation)的主要目的是防止过拟合

4.某电商平台需实时分析“用户加购到支付的转化漏斗”,要求延迟低于1秒,应优先选择的技术框架是?

A.ApacheHadoopMapReduce

B.

文档评论(0)

1亿VIP精品文档

相关文档