百度数据挖掘面试题及详细答案（实战版）.docxVIP

百度数据挖掘面试题及详细答案（实战版）.docx

百度数据挖掘面试题及详细答案（实战版）

一、基础核心题（面试必问，考察功底）

1.数据挖掘和机器学习的核心区别是什么？结合百度业务举个例子

答案：核心差异在「目标导向」——数据挖掘是“业务驱动”，从实际问题出发找数据中的价值规律；机器学习是“技术驱动”，聚焦模型本身的学习能力优化。

比如百度搜索场景：数据挖掘的目标可能是“找出用户搜索关键词与点击行为的关联”（比如搜索“手机测评”的用户70%会点击视频类结果），用于优化搜索结果排序；机器学习则是“训练模型预测用户点击概率”，通过特征工程和算法调优提升预测准确率，最终服务于数据挖掘的业务目标。

2.数据预处理时，缺失值和异常值怎么处理？不能一概而论吧？

答案：确实不能一刀切，要结合数据类型、缺失/异常原因和业务场景判断：

• 缺失值处理：

◦ 数值型：无异常值用「均值填充」（比如用户日均搜索次数，分布均匀）；有异常值用「中位数填充」（比如用户消费金额，避免极值拉偏）；时间序列数据用「前后值插值」（比如连续7天的UV数据）。

◦ 分类型：缺失率5%用「众数填充」（比如用户职业）；缺失率20%直接加「未知」类别（比如用户兴趣标签缺失，本身可能是“无明确兴趣”的特征）。

• 异常值处理：先查原因再处理——数据录入错误（比如年龄180→修正为18）、测试数据（比如广告点击测试单→直接删除）

更多 >