(2025年)(完整版)数据挖掘题及答案.docxVIP

  • 1
  • 0
  • 约4.15千字
  • 约 10页
  • 2026-05-20 发布于四川
  • 举报

(2025年)(完整版)数据挖掘题及答案

某跨境电商平台为提升用户复购率,收集了2023年1月至2024年6月的用户行为数据,包含12万条用户样本,字段涵盖用户基本属性(年龄、性别、注册时长)、消费行为(历史购买次数、最近30天加购次数、平均客单价、最后一次购买距今天数)、互动行为(最近30天浏览商品数、评论次数、优惠券使用次数)及目标变量(未来30天是否复购,1为是,0为否)。数据中存在部分缺失值与异常值,且正负样本比例约为1:4(正样本为复购用户)。请基于该数据完成以下任务:

任务1:数据理解与初步分析

(1)计算目标变量的分布比例,并说明该分布对模型评估的影响;

(2)分析连续型特征(如平均客单价)与目标变量的相关性,需选择至少2种方法并对比结果;

(3)识别分类特征(如性别)的类别分布是否存在显著偏差(显著性水平α=0.05),并给出结论。

任务2:数据预处理

(1)对“年龄”字段的缺失值(缺失率约8%)进行处理,需说明选择的方法及合理性;

(2)检测“最后一次购买距今天数”的异常值(要求使用至少2种方法),并设计处理策略;

(3)对“优惠券使用次数”(取值为0-15次)进行离散化,要求输出3个区间并说明划分依据。

任务3:特征工程

(1)基于现有字段构造2个新特征(需体现用户行为的时间趋势或价值分层),并解释其业务意义;

(2)使用卡方检验

文档评论(0)

1亿VIP精品文档

相关文档