机器学习面试高频题及清晰解答.docxVIP

下载本文档

0
0
约2.84千字
约 3页
2025-12-06 发布于河北
举报
版权申诉

机器学习面试高频题及清晰解答.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习面试高频题及清晰解答

一、基础概念类

问题：什么是过拟合？实际工作中怎么避免？

答案：过拟合就是模型把训练数据里的“噪声”当成了规律，导致在训练集上表现好，一到新数据（测试集）就拉胯。比如用复杂的多项式去拟合简单的线性数据，曲线拐来拐去刚好绕开所有训练点，但完全不符合真实规律。

避免方法最常用的有这几个：一是加数据，让模型见更多真实情况，噪声自然被稀释；二是正则化（L1、L2），相当于给模型的“复杂程度”设个限制，不让它瞎折腾；三是简化模型，比如决策树剪枝、神经网络减少层数；四是交叉验证，早发现过拟合迹象及时调整。

问题：监督学习和无监督学习的核心区别是什么？各举2个实际应用场景

答案：核心区别就是“有没有标签”——监督学习的训练数据是带“标准答案”的（比如预测房价时，每个样本都有真实成交价），模型学的是“输入→标签”的映射；无监督学习的训练数据没标签，模型自己找数据里的隐藏规律（比如用户分群，不知道谁属于哪类，让模型自己聚类）。

监督学习应用：垃圾邮件分类（标签：垃圾/非垃圾）、电商销量预测（标签：未来销量）；无监督学习应用：用户画像聚类（把相似用户归为一类）、异常交易检测（找出和大部分交易不一样的可疑记录）。

问题：为什么要做特征归一化/标准化？哪些模型对这个不敏感？

答案：特征归一化（比如把数据缩到0-1之间）、标准化（把数据变成均值0、方差1），核心是让不同量级的特征“站在同一起跑线”。比如预测用户消费时，“年龄（20-60）”和“月收入（3000-50000）”量级差太多，不处理的话，模型会过分看重收入这个“大数值”特征，忽略年龄的影响。

不敏感的模型：决策树、随机森林、XGBoost这类基于树的模型。因为它们是按特征的信息增益、基尼系数来分裂节点的，只关注特征的“区分能力”，和特征的绝对数值大小没关系；而逻辑回归、SVM、神经网络对这个很敏感，必须做归一化/标准化。

二、模型原理类

问题：逻辑回归明明叫“回归”，为什么用来做分类？它的核心逻辑是什么？

答案：逻辑回归本质是“分类模型”，叫“回归”是因为它借用了线性回归的框架。核心逻辑是：先通过线性回归算出一个连续值（比如z=w1x1+w2x2+...+b），再用sigmoid函数把这个连续值映射到0-1之间，得到的结果作为“属于正类的概率”。比如预测是否违约，输出0.8就表示有80%概率违约，我们设定一个阈值（比如0.5），超过就是正类，否则负类，这样就实现了分类。

问题：决策树容易过拟合，随机森林是怎么解决这个问题的？

答案：随机森林的核心是“集成思想”——把多个容易过拟合的小决策树组合起来，变成一个稳健的模型。它主要用了两个“随机”来降低过拟合：一是样本随机，每个决策树训练时，都是从原始数据里随机抽一部分样本（bootstrap抽样），避免单个树学透所有样本的噪声；二是特征随机，每个树分裂节点时，不是从所有特征里选最优的，而是随机选一部分特征，再从这部分里选最优的，避免单个树过分依赖某个“强特征”，减少方差。多个树的预测结果投票（分类）或平均（回归），最终结果就更稳定，不容易过拟合。

问题：SVM的“支持向量”是什么？它为什么能处理高维数据？

答案：支持向量就是训练集中那些“刚好落在分类边界上”或“离边界最近”的样本点，这些点是决定分类边界的关键——去掉其他样本，重新训练SVM，得到的边界是一样的。

SVM能处理高维数据，核心是“核函数”的作用。比如数据在低维里线性不可分（比如两类点绕成圈），核函数可以把低维数据映射到高维空间，让数据在高维里变得线性可分。而且核函数不用真的把数据显式映射到高维（那样计算量太大），而是直接计算高维空间中样本的内积，大大降低了计算成本，所以即使特征维度比样本数还多，SVM也能高效处理。

三、实践应用类

问题：模型训练完后，怎么评估它的好坏？分类和回归任务的评估指标分别有哪些？

答案：评估的核心是看模型在“未见过的数据”上的表现，不能只看训练集。

分类任务常用指标：准确率（整体预测对的比例）、精确率（预测为正类的样本中，实际是正类的比例，比如预测为“垃圾邮件”的里面，真垃圾邮件的比例）、召回率（实际是正类的样本中，被预测对的比例，比如所有真垃圾邮件里，被识别出来的比例）、F1分数（精确率和召回率的调和平均，避免单一指标的偏差）、AUC（衡量模型区分正负类的能力，越接近1越好）。

回归任务常用指标：MAE（平均绝对误差，直观反映误差大小）、MSE（均方误差，对大误差更敏感）、RMSE（均方根误差，和原始数据同量级，更易理解）、R2（决定系数，0-1之间，越接近1表示

您可能关注的文档

文档评论（0）

151****9429 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习面试高频题及清晰解答.docxVIP