- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习面试高频题及清晰解答
一、基础概念类
问题:什么是过拟合?实际工作中怎么避免?
答案:过拟合就是模型把训练数据里的“噪声”当成了规律,导致在训练集上表现好,一到新数据(测试集)就拉胯。比如用复杂的多项式去拟合简单的线性数据,曲线拐来拐去刚好绕开所有训练点,但完全不符合真实规律。
避免方法最常用的有这几个:一是加数据,让模型见更多真实情况,噪声自然被稀释;二是正则化(L1、L2),相当于给模型的“复杂程度”设个限制,不让它瞎折腾;三是简化模型,比如决策树剪枝、神经网络减少层数;四是交叉验证,早发现过拟合迹象及时调整。
问题:监督学习和无监督学习的核心区别是什么?各举2个实际应用场景
答案:核心区别就是“有没有标签”——监督学习的训练数据是带“标准答案”的(比如预测房价时,每个样本都有真实成交价),模型学的是“输入→标签”的映射;无监督学习的训练数据没标签,模型自己找数据里的隐藏规律(比如用户分群,不知道谁属于哪类,让模型自己聚类)。
监督学习应用:垃圾邮件分类(标签:垃圾/非垃圾)、电商销量预测(标签:未来销量);无监督学习应用:用户画像聚类(把相似用户归为一类)、异常交易检测(找出和大部分交易不一样的可疑记录)。
问题:为什么要做特征归一化/标准化?哪些模型对这个不敏感?
答案:特征归一化(比如把数据缩到0-1之间)、标准化(把数据变成均值0、方差1),核心是让不同量级的特征“站在同一起跑线”。比如预测用户消费时,“年龄(20-60)”和“月收入(3000-50000)”量级差太多,不处理的话,模型会过分看重收入这个“大数值”特征,忽略年龄的影响。
不敏感的模型:决策树、随机森林、XGBoost这类基于树的模型。因为它们是按特征的信息增益、基尼系数来分裂节点的,只关注特征的“区分能力”,和特征的绝对数值大小没关系;而逻辑回归、SVM、神经网络对这个很敏感,必须做归一化/标准化。
二、模型原理类
问题:逻辑回归明明叫“回归”,为什么用来做分类?它的核心逻辑是什么?
答案:逻辑回归本质是“分类模型”,叫“回归”是因为它借用了线性回归的框架。核心逻辑是:先通过线性回归算出一个连续值(比如z=w1x1+w2x2+...+b),再用sigmoid函数把这个连续值映射到0-1之间,得到的结果作为“属于正类的概率”。比如预测是否违约,输出0.8就表示有80%概率违约,我们设定一个阈值(比如0.5),超过就是正类,否则负类,这样就实现了分类。
问题:决策树容易过拟合,随机森林是怎么解决这个问题的?
答案:随机森林的核心是“集成思想”——把多个容易过拟合的小决策树组合起来,变成一个稳健的模型。它主要用了两个“随机”来降低过拟合:一是样本随机,每个决策树训练时,都是从原始数据里随机抽一部分样本(bootstrap抽样),避免单个树学透所有样本的噪声;二是特征随机,每个树分裂节点时,不是从所有特征里选最优的,而是随机选一部分特征,再从这部分里选最优的,避免单个树过分依赖某个“强特征”,减少方差。多个树的预测结果投票(分类)或平均(回归),最终结果就更稳定,不容易过拟合。
问题:SVM的“支持向量”是什么?它为什么能处理高维数据?
答案:支持向量就是训练集中那些“刚好落在分类边界上”或“离边界最近”的样本点,这些点是决定分类边界的关键——去掉其他样本,重新训练SVM,得到的边界是一样的。
SVM能处理高维数据,核心是“核函数”的作用。比如数据在低维里线性不可分(比如两类点绕成圈),核函数可以把低维数据映射到高维空间,让数据在高维里变得线性可分。而且核函数不用真的把数据显式映射到高维(那样计算量太大),而是直接计算高维空间中样本的内积,大大降低了计算成本,所以即使特征维度比样本数还多,SVM也能高效处理。
三、实践应用类
问题:模型训练完后,怎么评估它的好坏?分类和回归任务的评估指标分别有哪些?
答案:评估的核心是看模型在“未见过的数据”上的表现,不能只看训练集。
分类任务常用指标:准确率(整体预测对的比例)、精确率(预测为正类的样本中,实际是正类的比例,比如预测为“垃圾邮件”的里面,真垃圾邮件的比例)、召回率(实际是正类的样本中,被预测对的比例,比如所有真垃圾邮件里,被识别出来的比例)、F1分数(精确率和召回率的调和平均,避免单一指标的偏差)、AUC(衡量模型区分正负类的能力,越接近1越好)。
回归任务常用指标:MAE(平均绝对误差,直观反映误差大小)、MSE(均方误差,对大误差更敏感)、RMSE(均方根误差,和原始数据同量级,更易理解)、R2(决定系数,0-1之间,越接近1表示
您可能关注的文档
- 本币交易员岗位能力考试题库及答案.docx
- 本科运筹学课程期末考试试卷及答案.docx
- 朝阳区小学三年级(上)期末测试卷及答案.docx
- 服务礼仪知识与实操考核试卷.docx
- 服务器工程师面试题及参考答案.docx
- 机场招聘笔试题及参考答案.docx
- 机动车驾考科目一全真模拟试题(含答案解析).docx
- 机动车驾驶科目一模拟考试题(含答案解析).docx
- 机动车驾驶理论试题及答案.docx
- 机动车驾驶人考试模拟试题及答案.docx
- 中国国家标准 GB 14287.5-2025电气火灾监控系统 第5部分:测量热解粒子式电气火灾监控探测器.pdf
- 《GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存》.pdf
- GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求.pdf
- 《GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求》.pdf
- 《GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备》.pdf
- GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备.pdf
- GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
- 中国国家标准 GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
最近下载
- ISO--14644-1-2015-中文版本文档.pdf VIP
- 氧化铝公司基建施工验收手册.doc VIP
- 2025重庆永川区来苏镇关于村社区专职干部招录8人备考题库完美版.docx VIP
- 北京外国语大学《大学英语》2003年真题.docx VIP
- 2025重庆永川区来苏镇关于村社区专职干部招录8人备考题库汇编.docx VIP
- 新高一必修1第四单元课文+翻译 .pdf VIP
- 华为内部控制手册.pdf VIP
- 全国翻译专业资格(水平)考试--CATTI精品课件.ppt VIP
- HJ 169-2018 建设项目环境风险评价技术导则.docx VIP
- 浙江专升本英语真题 铭远教育 2014年浙江专升本英语真题.doc VIP
原创力文档


文档评论(0)