数据挖掘面试题及答案(贴近实操版).docxVIP

数据挖掘面试题及答案(贴近实操版).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘面试题及答案(贴近实操版)

一、基础概念与业务结合类

问:数据挖掘和机器学习的核心区别是什么?举个实际业务例子说明

答:核心区别在“目标导向”——数据挖掘更偏向“从业务问题出发,用算法找数据中的价值信息”;机器学习更偏向“让模型从数据中学习规律,优化预测/分类能力”。

比如电商场景:用数据挖掘可能是“找用户购买行为和复购率的关联(比如买过护肤品的用户30天内复购率高)”,解决“如何提升复购”的业务问题;用机器学习则是“基于用户历史数据,训练模型预测下次购买时间”,优化推荐精准度。

问:数据挖掘中“业务理解”为什么比技术实现更重要?举个踩坑案例

答:因为脱离业务的技术会做“无用功”——比如没搞懂业务目标就建模,最后结果无法落地。

之前做零售客户流失分析,一开始没和业务方确认“流失定义”,默认“3个月没消费算流失”,但业务方实际认为“会员没领券+没消费2个月就算流失”,导致模型预测的“流失客户”和业务方认定的偏差极大,后来重新调整数据口径才补救。

二、数据预处理实操类

问:处理缺失值时,怎么判断用“均值填充”还是“中位数填充”?如果是分类变量缺失呢?

答:看数值型变量是否有异常值(outliers)——如果没有异常值(比如用户年龄,大部分在20-40岁,分布均匀),用均值填充;如果有异常值(比如用户消费金额,大部分在100-500元,但有几个10万+的测试数据),用中位数填充,避免异常值拉偏均值。

分类变量缺失(比如用户职业为空),如果缺失率低(5%),用“众数填充”(比如职业里“上班族”最多,就填上班族);如果缺失率高(20%),直接新建“未知”类别,避免强行填充导致偏差,比如用户职业缺失可能是没填写,本身就是一种特征。

问:遇到异常值怎么处理?不能直接删吧?举个例子

答:先查异常值原因,再针对性处理,不能直接删。常见步骤:

①确认异常原因:是数据录入错误(比如把“用户年龄18”录成“180”)、测试数据(比如系统生成的“999元消费”测试单),还是真实极端值(比如高净值客户一次消费10万);

②处理方式:录入错误就修正(180改成18),测试数据直接删,真实极端值用“盖帽法”(比如消费金额,把超过99%分位数的值,替换成99%分位数的值)。

之前做外卖客单价分析,发现有“1元客单价”的异常值,查了是“商家补贴测试单”,直接删掉;而“200元客单价”是真实的“家庭聚餐订单”,就用盖帽法处理,避免影响整体均值。

三、特征工程类

问:做特征选择时,过滤式(比如相关性分析)和包裹式(比如递归特征消除)怎么选?实际用的时候有什么坑?

答:看数据量和业务需求——

①数据量大(比如10万条数据,100个特征),先用过滤式快速筛掉无关特征(比如用皮尔逊相关系数,删掉和目标变量相关性0.1的特征),减少计算量;

②数据量小、追求模型精度,用包裹式(比如递归特征消除,每次删一个最差特征再测模型效果),但缺点是耗时间,比如100个特征可能要跑几十次模型。

踩过的坑:之前做信贷违约预测,先用过滤式删了“用户住址”特征(和违约率相关性低),但业务方说“郊区用户违约率其实高,只是数据里样本少没体现”,后来把“住址”改成“是否郊区”的分类特征加回去,模型AUC提升了5%,所以过滤式后还要结合业务再检查。

问:怎么把“用户消费时间”这个特征转化成模型能用的特征?

答:不能直接用“2024-05-12”这种日期格式,要拆成有业务意义的数值/分类特征:

①时间差特征:比如“距离上次消费的天数”(判断用户活跃度)、“近30天消费次数”(体现消费频率);

②周期特征:比如“消费星期几”(周末消费可能是休闲类,工作日是刚需类)、“是否节假日”(节假日消费金额可能更高);

③趋势特征:比如“近3个月消费金额的环比增长率”(判断消费能力是否上升)。

四、算法应用与问题解决类

问:K-Means聚类时,怎么确定“K值”?实际聚类后发现效果差,可能是什么原因?

答:确定K值常用两种方法结合:

①肘部法则:画“K值-误差平方和(SSE)”曲线,找曲线突然变缓的点(比如K=3时SSE下降快,K=4后下降慢,就选K=3);

②业务匹配:比如做客户分群,业务方说“要分高、中、低价值客户”,那K直接设3,不用硬凑肘部法则的结果。

聚类效果差的常见原因:

特征没标准化:比如“用户年龄(20-60)”和“消费金额(100-10000)”,金额的权重会被放大,导致聚类偏向金额;

选了无关特征:比如把“用户注册手机号前3

文档评论(0)

151****9429 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档