数据挖掘面试题及答案（贴近实操版）.docxVIP

下载本文档

0
0
约3.66千字
约 4页
2025-10-11 发布于河北
举报
版权申诉

数据挖掘面试题及答案（贴近实操版）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘面试题及答案（贴近实操版）

一、基础概念与业务结合类

问：数据挖掘和机器学习的核心区别是什么？举个实际业务例子说明

答：核心区别在“目标导向”——数据挖掘更偏向“从业务问题出发，用算法找数据中的价值信息”；机器学习更偏向“让模型从数据中学习规律，优化预测/分类能力”。

比如电商场景：用数据挖掘可能是“找用户购买行为和复购率的关联（比如买过护肤品的用户30天内复购率高）”，解决“如何提升复购”的业务问题；用机器学习则是“基于用户历史数据，训练模型预测下次购买时间”，优化推荐精准度。

问：数据挖掘中“业务理解”为什么比技术实现更重要？举个踩坑案例

答：因为脱离业务的技术会做“无用功”——比如没搞懂业务目标就建模，最后结果无法落地。

之前做零售客户流失分析，一开始没和业务方确认“流失定义”，默认“3个月没消费算流失”，但业务方实际认为“会员没领券+没消费2个月就算流失”，导致模型预测的“流失客户”和业务方认定的偏差极大，后来重新调整数据口径才补救。

二、数据预处理实操类

问：处理缺失值时，怎么判断用“均值填充”还是“中位数填充”？如果是分类变量缺失呢？

答：看数值型变量是否有异常值（outliers）——如果没有异常值（比如用户年龄，大部分在20-40岁，分布均匀），用均值填充；如果有异常值（比如用户消费金额，大部分在100-500元，但有几个10万+的测试数据），用中位数填充，避免异常值拉偏均值。

分类变量缺失（比如用户职业为空），如果缺失率低（5%），用“众数填充”（比如职业里“上班族”最多，就填上班族）；如果缺失率高（20%），直接新建“未知”类别，避免强行填充导致偏差，比如用户职业缺失可能是没填写，本身就是一种特征。

问：遇到异常值怎么处理？不能直接删吧？举个例子

答：先查异常值原因，再针对性处理，不能直接删。常见步骤：

①确认异常原因：是数据录入错误（比如把“用户年龄18”录成“180”）、测试数据（比如系统生成的“999元消费”测试单），还是真实极端值（比如高净值客户一次消费10万）；

②处理方式：录入错误就修正（180改成18），测试数据直接删，真实极端值用“盖帽法”（比如消费金额，把超过99%分位数的值，替换成99%分位数的值）。

之前做外卖客单价分析，发现有“1元客单价”的异常值，查了是“商家补贴测试单”，直接删掉；而“200元客单价”是真实的“家庭聚餐订单”，就用盖帽法处理，避免影响整体均值。

三、特征工程类

问：做特征选择时，过滤式（比如相关性分析）和包裹式（比如递归特征消除）怎么选？实际用的时候有什么坑？

答：看数据量和业务需求——

①数据量大（比如10万条数据，100个特征），先用过滤式快速筛掉无关特征（比如用皮尔逊相关系数，删掉和目标变量相关性0.1的特征），减少计算量；

②数据量小、追求模型精度，用包裹式（比如递归特征消除，每次删一个最差特征再测模型效果），但缺点是耗时间，比如100个特征可能要跑几十次模型。

踩过的坑：之前做信贷违约预测，先用过滤式删了“用户住址”特征（和违约率相关性低），但业务方说“郊区用户违约率其实高，只是数据里样本少没体现”，后来把“住址”改成“是否郊区”的分类特征加回去，模型AUC提升了5%，所以过滤式后还要结合业务再检查。

问：怎么把“用户消费时间”这个特征转化成模型能用的特征？

答：不能直接用“2024-05-12”这种日期格式，要拆成有业务意义的数值/分类特征：

①时间差特征：比如“距离上次消费的天数”（判断用户活跃度）、“近30天消费次数”（体现消费频率）；

②周期特征：比如“消费星期几”（周末消费可能是休闲类，工作日是刚需类）、“是否节假日”（节假日消费金额可能更高）；

③趋势特征：比如“近3个月消费金额的环比增长率”（判断消费能力是否上升）。

四、算法应用与问题解决类

问：K-Means聚类时，怎么确定“K值”？实际聚类后发现效果差，可能是什么原因？

答：确定K值常用两种方法结合：

①肘部法则：画“K值-误差平方和（SSE）”曲线，找曲线突然变缓的点（比如K=3时SSE下降快，K=4后下降慢，就选K=3）；

②业务匹配：比如做客户分群，业务方说“要分高、中、低价值客户”，那K直接设3，不用硬凑肘部法则的结果。

聚类效果差的常见原因：

特征没标准化：比如“用户年龄（20-60）”和“消费金额（100-10000）”，金额的权重会被放大，导致聚类偏向金额；

选了无关特征：比如把“用户注册手机号前3

您可能关注的文档

文档评论（0）

151****9429 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据挖掘面试题及答案（贴近实操版）.docxVIP