- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习笔试题细选附答案
一、基础概念题
1.监督学习与无监督学习的核心区别是什么?各列举两种典型算法,并说明无监督学习在实际场景中的一个应用。
答案:核心区别在于训练数据是否包含标签(目标变量)。监督学习使用带标签数据(如样本特征x与对应的y),目标是学习输入到输出的映射;无监督学习使用无标签数据,目标是发现数据的内在结构或模式。典型监督学习算法:逻辑回归(分类)、线性回归(回归);无监督学习算法:K-means(聚类)、主成分分析(PCA,降维)。实际应用如电商用户行为分析中,通过无监督聚类(如DBSCAN)识别不同购买偏好的用户群体,辅助精准营销。
2.过拟合的本质是什么?列举四种缓解过拟合的方法,并说明其中正则化方法的数学原理。
答案:过拟合的本质是模型在训练数据上拟合了过多的噪声或细节,导致对新数据的泛化能力下降。缓解方法:(1)增加训练数据量(数据增强或收集更多样本);(2)降低模型复杂度(如减少神经网络层数、决策树深度);(3)正则化(L1/L2正则);(4)早停(在验证集误差不再下降时停止训练)。正则化的数学原理是在损失函数中添加模型参数的惩罚项,L2正则添加参数平方和(如λ||w||2/2),迫使模型选择更简单的参数(权重更小),降低对噪声的敏感性;L1正则添加参数绝对值和(如λ||w||?),会使部分参数变为0,实现特征选择。
3.交叉验证的作用是什么?常用的交叉验证方法有哪些?简述留一法(LOOCV)的优缺点。
答案:交叉验证的作用是评估模型泛化能力,减少单次随机划分训练集/验证集带来的评估偏差。常用方法包括简单交叉验证(Hold-out)、k折交叉验证(k-Fold)、分层k折交叉验证(Stratifiedk-Fold,针对类别不平衡数据)、留一法(LOOCV)。留一法的优点是评估结果几乎无偏差(每次用n-1个样本训练,1个测试,共n次),适用于小样本场景;缺点是计算成本高(n次训练),且当数据存在严重离群点时,结果可能不稳定。
4.精确率(Precision)与召回率(Recall)的定义是什么?F1分数的计算公式是什么?在癌症诊断场景中,应更关注精确率还是召回率?为什么?
答案:精确率=TP/(TP+FP),表示模型预测为正的样本中实际为正的比例;召回率=TP/(TP+FN),表示实际为正的样本中被模型正确预测的比例。F1=2(PrecisionRecall)/(Precision+Recall),是两者的调和平均。癌症诊断场景中更关注召回率,因为漏诊(FN)的代价(患者未及时治疗)远高于误诊(FP,可能需要进一步检查),因此需尽可能提高召回率,减少漏诊。
5.简述偏差(Bias)与方差(Variance)的含义及二者的权衡关系。
答案:偏差是模型预测值与真实值的系统性误差,反映模型对问题本身的拟合能力(高偏差意味着欠拟合);方差是模型在不同训练集上的预测波动,反映模型对训练数据噪声的敏感性(高方差意味着过拟合)。偏差-方差权衡指,当模型复杂度增加时,偏差降低(更贴合数据)但方差升高(易受噪声影响);反之,模型过于简单时偏差高但方差低。最优模型需在两者间找到平衡,使总误差(偏差2+方差+噪声)最小。
二、模型原理与算法题
1.逻辑回归(LogisticRegression)与线性回归(LinearRegression)的联系与区别是什么?
答案:联系:两者均基于线性模型,假设输入特征与目标变量存在线性关系;逻辑回归的决策边界(sigmoid函数的输入)本质是线性回归的输出(z=w·x+b)。区别:(1)任务类型:线性回归用于回归(连续值预测),逻辑回归用于分类(二分类或多分类);(2)输出范围:线性回归输出实数(-∞,+∞),逻辑回归通过sigmoid函数将输出压缩到(0,1),表示概率;(3)损失函数:线性回归使用均方误差(MSE),逻辑回归使用交叉熵损失(对数损失);(4)优化目标:线性回归最小化预测值与真实值的平方差,逻辑回归最大化似然函数(等价于最小化交叉熵)。
2.支持向量机(SVM)的核心思想是什么?核函数的作用是什么?常用核函数有哪些?各自适用场景是什么?
答案:SVM的核心思想是找到一个最优分类超平面,使得训练数据中正负样本到超平面的“间隔”最大(最大间隔分类器)。对于线性不可分数据,通过核函数将低维输入空间映射到高维特征空间,使数据在高维空间中线性可分。核函数的作用是隐式完成高维映射,避免显式计算高维特征(解决维度灾难)。常用核函数:(1)线性核(K(x,x’)=x·x’):适用于线性可分数据,计算效率高;(2)多项式核(K(x,x’)=(γx·x’+r)^d):适用于数据分布有多项式关系的场景(
您可能关注的文档
- 护理仁医网题库及答案.docx
- 护理三基考试题附答案.docx
- 护理三基三严考试练习题(附参考答案).docx
- 护理三基三严考试模拟题(含参考答案).docx
- 护理三基三严练习题及参考答案.docx
- 护理三基三严模拟习题及参考答案.docx
- 护理三基训练试题及答案完整版.docx
- 护理学04章题库及答案.docx
- 护理学基本知识模拟练习题含答案.docx
- 护理招聘笔试真题及答案.docx
- 人教数学七下5.2.2平行线判定2[代老师]【市一等奖】优质课.ppt
- 人教数学七下6.2.2用计算器求立方根[周老师]【市一等奖】优质课.ppt
- 人教数学七下5.3.0探索两条直线的位置关系[龚老师]【市一等奖】优质课.ppt
- 人教数学七上4.3.3方位角[孙老师]【市一等奖】优质课.ppt
- 人教数学七下5.3.2命题、定理、证明1[刘老师]【市一等奖】优质课.ppt
- 一般过去时练习.docx
- 语法专练 一般过去时.docx
- 人教数学七下5.3.2命题、定理、证明2[洪老师]【市一等奖】优质课.ppt
- 2026年保密员理论考试题库含答案(典型题).docx
- 2026年县乡教师选调进城考试《教育学》题库300道(培优b卷).docx
原创力文档


文档评论(0)