机器学习面试题及答案.docx

下载文档

1
0
约2.16千字
约 3页
2025-09-23 发布于河北
举报
版权申诉
保障服务

机器学习面试题及答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习面试题及答案

一、基础概念类

问：监督学习和无监督学习的核心区别是什么？实际工作中怎么选？

答：核心是“有没有标签”——监督学习的训练数据有明确的目标标签（比如用历史销量数据预测未来销量，销量就是标签），要学“输入→标签”的映射；无监督学习没有标签，只靠数据本身的规律分组或降维（比如把用户按消费习惯分成几类）。

选法看业务目标：如果知道要“预测什么”（比如预测客户是否流失），用监督；如果不知道数据里有什么规律，想先“探索数据”（比如用户分群），用无监督。

问：逻辑回归明明叫“回归”，为什么用来做分类？

答：因为它的输出不是连续值（比如回归预测的房价），而是“属于某类的概率”。原理是用sigmoid函数把线性模型的输出（-∞到+∞）压缩到0-1之间，再设个阈值（比如0.5）：概率≥0.5归为正类，否则负类。本质是把线性模型的结果“分类化”，所以实际用在二分类场景（比如判断邮件是不是垃圾邮件）。

二、经典算法类

问：决策树的ID3和C4.5算法，主要区别在哪？

答：最核心是“特征选择准则”不一样。ID3用“信息增益”，但有个问题——偏爱取值多的特征（比如“用户ID”这种唯一值特征，信息增益高但毫无意义）；C4.5改进成“信息增益比”，会给取值多的特征加惩罚，避免选到这种无效特征。

另外C4.5还能处理连续值（比如把“年龄”分成18以下、18-30等区间）和缺失值（用特征的权重占比补全），ID3做不到这些。

问：随机森林和GBDT都是集成算法，为什么随机森林能并行，GBDT不行？

答：因为两者的“集成逻辑”不同。随机森林是“bagging（装袋）”思想：多个决策树独立训练（每个树用不同的样本子集和特征子集），最后投票或取平均，树和树之间没依赖，所以能同时训多个树，支持并行；

GBDT是“boosting（提升）”思想：树是一棵接一棵训的，后一棵要专门修正前一棵的错误（比如前一棵预测不准的样本，后一棵会给更高权重），必须等前一棵训完才能训下一棵，所以没法并行。

三、模型评估类

问：为什么不平衡数据（比如癌症检测，99%是健康人）不能用准确率当评估指标？该用什么？

答：因为准确率会“骗人”。比如随便把所有样本都判为“健康人”，准确率也有99%，但完全没抓到癌症患者，毫无意义。

该用精确率（预测为正类的样本里，真的是正类的比例，比如别把健康人误诊为癌症）、召回率（真的正类样本里，被预测对的比例，比如别漏诊癌症患者），或者两者结合的F1分数。如果是排序场景（比如给用户推可能感兴趣的商品），用AUC更合适。

问：AUC值的含义是什么？AUC=0.5说明模型怎么样？

答：AUC是“ROC曲线下的面积”，本质反映模型“区分正负样本的能力”。比如随机抽一个正样本和一个负样本，AUC就是模型把正样本预测概率判得比负样本高的概率。

AUC=0.5意味着模型和“瞎猜”一样——区分能力为0，比如抛硬币判断正负类，这种模型没用。

四、特征工程类

问：数据里有缺失值，怎么处理？分情况说下？

答：看缺失值的比例和特征类型：

数值型特征：如果缺失少（比如5%），用均值（数据无极端值）或中位数（有极端值，比如收入）补；如果缺失多（比如30%），要么把“是否缺失”当成新特征，要么直接删这个特征；

类别型特征：缺失少用众数补，缺失多用“未知”作为新类别（比如用户职业缺失，就设为“未知职业”），别直接删，可能缺失本身有意义（比如不想填职业的用户有特定行为）。

问：为什么要做特征归一化？哪些算法不用做？

答：因为有些算法对“特征尺度”敏感。比如SVM、逻辑回归用梯度下降优化时，如果特征尺度差太多（比如“年龄”是0-100，“收入”是0-100万），梯度会走得很曲折，收敛慢；归一化后（比如都缩到0-1），梯度下降会更平稳。

不用做的是基于树的算法（决策树、随机森林、GBDT）——树的分裂只看特征的“信息增益”或“增益比”，和特征尺度没关系，比如年龄100和10000，只要分裂点选对，效果一样。

五、常见问题类

问：模型过拟合了怎么办？说3个实际常用的方法？

答：过拟合是模型“学太细，把噪声当规律”了，常用办法：

加数据：最根本的，给模型更多真实样本，让它别盯着噪声看；

正则化：比如逻辑回归加L1/L2正则，给模型参数“加约束”，不让参数变得太大（参数太大容易拟合噪声）；

早停：比如训神经网络或GBDT时，看验证集的误差，一旦验证集误差开始上升，就停止训练，别再往下学了。

问：朴素贝叶斯里的“朴素”是什么意思？实际中为什么好用？

答：“朴素”是假设“特征之间互

您可能关注的文档

文档评论（0）

151****9429 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习面试题及答案.docx