- 2
- 0
- 约4.23千字
- 约 12页
- 2026-07-03 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据科学探索:数据分析与应用进阶试题
一、单选题(共10题,每题2分,总计20分)
背景:某电商平台针对华东地区用户消费行为进行数据分析,以优化推荐算法。数据包含用户ID、购买记录、浏览时长、地域标签等字段。
1.在处理用户浏览时长数据时,发现存在大量异常值(如9999秒),以下哪种方法最适合平滑处理此类数据?()
A.删除异常值
B.使用中位数替换
C.标准化处理
D.线性插值
2.某分析师需计算华东地区用户的月均购买金额,数据集包含2020年至2023年的日交易记录,以下哪个聚合方法最合适?()
A.直接计算所有记录的平均值
B.按年统计后取均值
C.按月统计后取均值
D.先去重再计算平均值
3.在构建用户画像时,某特征(如“高消费倾向”)的分布极不均衡(90%用户为低消费),以下哪种模型可能因数据不平衡导致过拟合?()
A.决策树
B.逻辑回归
C.随机森林
D.支持向量机
4.某城市交通部门需分析早晚高峰拥堵程度,数据包含实时车流量和天气状况。以下哪个指标最适合衡量拥堵关联性?()
A.相关系数
B.皮尔逊系数
C.曼哈顿距离
D.距离矩阵
5.某制造业企业通过传感器采集设备振动数据,需检测异常振动是否预示故障。以下哪种检测方法最适用于此类问题?()
A.线性回归
B.
原创力文档

文档评论(0)