机器学习面试题及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

机器学习面试题及答案

一、基础概念类

问:监督学习和无监督学习的核心区别是什么?实际工作中怎么选?

答:核心是“有没有标签”——监督学习的训练数据有明确的目标标签(比如用历史销量数据预测未来销量,销量就是标签),要学“输入→标签”的映射;无监督学习没有标签,只靠数据本身的规律分组或降维(比如把用户按消费习惯分成几类)。

选法看业务目标:如果知道要“预测什么”(比如预测客户是否流失),用监督;如果不知道数据里有什么规律,想先“探索数据”(比如用户分群),用无监督。

问:逻辑回归明明叫“回归”,为什么用来做分类?

答:因为它的输出不是连续值(比如回归预测的房价),而是“属于某类的概率”。原理是用sigmoid函数把线性模型的输出(-∞到+∞)压缩到0-1之间,再设个阈值(比如0.5):概率≥0.5归为正类,否则负类。本质是把线性模型的结果“分类化”,所以实际用在二分类场景(比如判断邮件是不是垃圾邮件)。

二、经典算法类

问:决策树的ID3和C4.5算法,主要区别在哪?

答:最核心是“特征选择准则”不一样。ID3用“信息增益”,但有个问题——偏爱取值多的特征(比如“用户ID”这种唯一值特征,信息增益高但毫无意义);C4.5改进成“信息增益比”,会给取值多的特征加惩罚,避免选到这种无效特征。

另外C4.5还能处理连续值(比如把“年龄”分成18以下、18-30等区间)和缺失值(用特征的权重占比补全),ID3做不到这些。

问:随机森林和GBDT都是集成算法,为什么随机森林能并行,GBDT不行?

答:因为两者的“集成逻辑”不同。随机森林是“bagging(装袋)”思想:多个决策树独立训练(每个树用不同的样本子集和特征子集),最后投票或取平均,树和树之间没依赖,所以能同时训多个树,支持并行;

GBDT是“boosting(提升)”思想:树是一棵接一棵训的,后一棵要专门修正前一棵的错误(比如前一棵预测不准的样本,后一棵会给更高权重),必须等前一棵训完才能训下一棵,所以没法并行。

三、模型评估类

问:为什么不平衡数据(比如癌症检测,99%是健康人)不能用准确率当评估指标?该用什么?

答:因为准确率会“骗人”。比如随便把所有样本都判为“健康人”,准确率也有99%,但完全没抓到癌症患者,毫无意义。

该用精确率(预测为正类的样本里,真的是正类的比例,比如别把健康人误诊为癌症)、召回率(真的正类样本里,被预测对的比例,比如别漏诊癌症患者),或者两者结合的F1分数。如果是排序场景(比如给用户推可能感兴趣的商品),用AUC更合适。

问:AUC值的含义是什么?AUC=0.5说明模型怎么样?

答:AUC是“ROC曲线下的面积”,本质反映模型“区分正负样本的能力”。比如随机抽一个正样本和一个负样本,AUC就是模型把正样本预测概率判得比负样本高的概率。

AUC=0.5意味着模型和“瞎猜”一样——区分能力为0,比如抛硬币判断正负类,这种模型没用。

四、特征工程类

问:数据里有缺失值,怎么处理?分情况说下?

答:看缺失值的比例和特征类型:

数值型特征:如果缺失少(比如5%),用均值(数据无极端值)或中位数(有极端值,比如收入)补;如果缺失多(比如30%),要么把“是否缺失”当成新特征,要么直接删这个特征;

类别型特征:缺失少用众数补,缺失多用“未知”作为新类别(比如用户职业缺失,就设为“未知职业”),别直接删,可能缺失本身有意义(比如不想填职业的用户有特定行为)。

问:为什么要做特征归一化?哪些算法不用做?

答:因为有些算法对“特征尺度”敏感。比如SVM、逻辑回归用梯度下降优化时,如果特征尺度差太多(比如“年龄”是0-100,“收入”是0-100万),梯度会走得很曲折,收敛慢;归一化后(比如都缩到0-1),梯度下降会更平稳。

不用做的是基于树的算法(决策树、随机森林、GBDT)——树的分裂只看特征的“信息增益”或“增益比”,和特征尺度没关系,比如年龄100和10000,只要分裂点选对,效果一样。

五、常见问题类

问:模型过拟合了怎么办?说3个实际常用的方法?

答:过拟合是模型“学太细,把噪声当规律”了,常用办法:

加数据:最根本的,给模型更多真实样本,让它别盯着噪声看;

正则化:比如逻辑回归加L1/L2正则,给模型参数“加约束”,不让参数变得太大(参数太大容易拟合噪声);

早停:比如训神经网络或GBDT时,看验证集的误差,一旦验证集误差开始上升,就停止训练,别再往下学了。

问:朴素贝叶斯里的“朴素”是什么意思?实际中为什么好用?

答:“朴素”是假设“特征之间互

文档评论(0)

151****9429 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档