百度数据挖掘面试题及详细答案(实战版).docxVIP

  • 3
  • 0
  • 约4.88千字
  • 约 10页
  • 2026-06-24 发布于河北
  • 举报

百度数据挖掘面试题及详细答案(实战版).docx

百度数据挖掘面试题及详细答案(实战版)

一、基础核心题(面试必问,考察功底)

1.数据挖掘和机器学习的核心区别是什么?结合百度业务举个例子

答案:核心差异在「目标导向」——数据挖掘是“业务驱动”,从实际问题出发找数据中的价值规律;机器学习是“技术驱动”,聚焦模型本身的学习能力优化。

比如百度搜索场景:数据挖掘的目标可能是“找出用户搜索关键词与点击行为的关联”(比如搜索“手机测评”的用户70%会点击视频类结果),用于优化搜索结果排序;机器学习则是“训练模型预测用户点击概率”,通过特征工程和算法调优提升预测准确率,最终服务于数据挖掘的业务目标。

2.数据预处理时,缺失值和异常值怎么处理?不能一概而论吧?

答案:确实不能一刀切,要结合数据类型、缺失/异常原因和业务场景判断:

• 缺失值处理:

◦ 数值型:无异常值用「均值填充」(比如用户日均搜索次数,分布均匀);有异常值用「中位数填充」(比如用户消费金额,避免极值拉偏);时间序列数据用「前后值插值」(比如连续7天的UV数据)。

◦ 分类型:缺失率5%用「众数填充」(比如用户职业);缺失率20%直接加「未知」类别(比如用户兴趣标签缺失,本身可能是“无明确兴趣”的特征)。

• 异常值处理:先查原因再处理——数据录入错误(比如年龄180→修正为18)、测试数据(比如广告点击测试单→直接删除)

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档