- 7
- 0
- 约6.34千字
- 约 7页
- 2026-03-17 发布于河北
- 举报
数据挖掘面试题及答案
一、基础概念与业务理解类
1.请说说数据挖掘和数据分析的核心区别,实际工作中你怎么区分二者的应用场景?
答案:核心区别在于目标和输出——数据分析更偏向“描述过去、解释现状”,比如分析上月用户留存率下降的原因,输出的是结论和洞察;数据挖掘更偏向“预测未来、挖掘未知”,比如构建用户流失预测模型,输出的是可落地的预测能力或规律。
实际工作中,先看业务需求:如果是“找原因、做总结、支撑决策”,用数据分析,比如拆解销售业绩波动;如果是“做预测、找规律、自动化决策”,用数据挖掘,比如给用户做个性化推荐、预测信贷违约。另外,数据分析常是一次性的,数据挖掘多是周期性迭代(比如模型调优、重新训练)。
2.什么是特征工程?为什么说特征工程对模型效果影响很大?你实际做过哪些特征工程操作?
答案:特征工程就是把原始数据转换成模型能识别、能有效学习的特征的过程,核心是“提取有用信息、降低噪声干扰”。
模型的效果,本质上是“garbagein,garbageout”(输入垃圾,输出垃圾)。原始数据里常藏着冗余信息、缺失值、异常值,甚至非线性关系,模型直接学不到有效规律;而好的特征工程能把数据里的核心信息提炼出来,比如把“用户注册时间”转换成“用户存续时长”,把“多维度消费记录”聚合成“消费活跃度”,让模型更快收敛、预测更准。
实际做过的操作:缺失值处理(数值型用中位数/均
原创力文档

文档评论(0)