- 1
- 0
- 约5.52千字
- 约 14页
- 2026-06-01 发布于四川
- 举报
2025年新版大数据分析试题及答案
一、单项选择题(每题2分,共20分)
1.在大数据分析中,处理数据倾斜(DataSkew)时,以下哪种方法不适用于Spark场景?
A.增加并行度
B.对倾斜键添加随机前缀后聚合,再去除前缀二次聚合
C.使用Hive的DISTRIBUTEBY重新分区
D.对倾斜数据单独采样并调整计算逻辑
2.特征工程中,若某特征为“用户最近30天登录次数”(取值范围0-200),且业务目标是预测用户流失,以下哪种处理方式最合理?
A.直接归一化(Min-Max)后输入模型
B.分箱为“0次”“1-5次”“6-15次”“16次以上”
C.取对数变换(log(x+1))
D.标准化(Z-Score)后输入模型
3.关于机器学习模型评估,以下说法错误的是?
A.对于类别不平衡的二分类问题,F1-score比准确率更可靠
B.ROC曲线下面积(AUC)对类别不平衡不敏感
C.均方根误差(RMSE)比平均绝对误差(MAE)更易受异常值影响
D.交叉验证(CrossValidation)的主要目的是防止过拟合
4.某电商平台需实时分析“用户加购到支付的转化漏斗”,要求延迟低于1秒,应优先选择的技术框架是?
A.ApacheHadoopMapReduce
B.
您可能关注的文档
- (2025年)(新)全国“安全生产月活动”《安全知识》竞赛试题库(含答案).docx
- (2025年)安全施工方案题库及答案.docx
- (2025年)餐饮服务食品安全操作规范考试真题及答案解析.docx
- (2025年)恩施土家族苗族自治州宣恩县辅警考试题《公安基础知识》综合能力试题库附答案.docx
- (2025年)防震减灾知识测试题(+答案).docx
- (2025年)港口物流管理考试试题A标准答案.docx
- (2025年)高级电子商务师考试试题及答案.docx
- (2025年)公卫执业医师实践技能参考题库含答案解析.docx
- (2025年)吉林省白城市遴选面试真题及答案大全解析.docx
- (2025年)检验科上岗轮岗培训试题及答案.docx
原创力文档

文档评论(0)