机器学习笔试题细选附答案.docxVIP

下载本文档

0
0
约8.48千字
约 18页
2025-12-03 发布于四川
举报
版权申诉

机器学习笔试题细选附答案.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习笔试题细选附答案

一、基础概念题

1.监督学习与无监督学习的核心区别是什么？各列举两种典型算法，并说明无监督学习在实际场景中的一个应用。

答案：核心区别在于训练数据是否包含标签（目标变量）。监督学习使用带标签数据（如样本特征x与对应的y），目标是学习输入到输出的映射；无监督学习使用无标签数据，目标是发现数据的内在结构或模式。典型监督学习算法：逻辑回归（分类）、线性回归（回归）；无监督学习算法：K-means（聚类）、主成分分析（PCA，降维）。实际应用如电商用户行为分析中，通过无监督聚类（如DBSCAN）识别不同购买偏好的用户群体，辅助精准营销。

2.过拟合的本质是什么？列举四种缓解过拟合的方法，并说明其中正则化方法的数学原理。

答案：过拟合的本质是模型在训练数据上拟合了过多的噪声或细节，导致对新数据的泛化能力下降。缓解方法：（1）增加训练数据量（数据增强或收集更多样本）；（2）降低模型复杂度（如减少神经网络层数、决策树深度）；（3）正则化（L1/L2正则）；（4）早停（在验证集误差不再下降时停止训练）。正则化的数学原理是在损失函数中添加模型参数的惩罚项，L2正则添加参数平方和（如λ||w||2/2），迫使模型选择更简单的参数（权重更小），降低对噪声的敏感性；L1正则添加参数绝对值和（如λ||w||?），会使部分参数变为0，实现特征选择。

3.交叉验证的作用是什么？常用的交叉验证方法有哪些？简述留一法（LOOCV）的优缺点。

答案：交叉验证的作用是评估模型泛化能力，减少单次随机划分训练集/验证集带来的评估偏差。常用方法包括简单交叉验证（Hold-out）、k折交叉验证（k-Fold）、分层k折交叉验证（Stratifiedk-Fold，针对类别不平衡数据）、留一法（LOOCV）。留一法的优点是评估结果几乎无偏差（每次用n-1个样本训练，1个测试，共n次），适用于小样本场景；缺点是计算成本高（n次训练），且当数据存在严重离群点时，结果可能不稳定。

4.精确率（Precision）与召回率（Recall）的定义是什么？F1分数的计算公式是什么？在癌症诊断场景中，应更关注精确率还是召回率？为什么？

答案：精确率=TP/(TP+FP)，表示模型预测为正的样本中实际为正的比例；召回率=TP/(TP+FN)，表示实际为正的样本中被模型正确预测的比例。F1=2(PrecisionRecall)/(Precision+Recall)，是两者的调和平均。癌症诊断场景中更关注召回率，因为漏诊（FN）的代价（患者未及时治疗）远高于误诊（FP，可能需要进一步检查），因此需尽可能提高召回率，减少漏诊。

5.简述偏差（Bias）与方差（Variance）的含义及二者的权衡关系。

答案：偏差是模型预测值与真实值的系统性误差，反映模型对问题本身的拟合能力（高偏差意味着欠拟合）；方差是模型在不同训练集上的预测波动，反映模型对训练数据噪声的敏感性（高方差意味着过拟合）。偏差-方差权衡指，当模型复杂度增加时，偏差降低（更贴合数据）但方差升高（易受噪声影响）；反之，模型过于简单时偏差高但方差低。最优模型需在两者间找到平衡，使总误差（偏差2+方差+噪声）最小。

二、模型原理与算法题

1.逻辑回归（LogisticRegression）与线性回归（LinearRegression）的联系与区别是什么？

答案：联系：两者均基于线性模型，假设输入特征与目标变量存在线性关系；逻辑回归的决策边界（sigmoid函数的输入）本质是线性回归的输出（z=w·x+b）。区别：（1）任务类型：线性回归用于回归（连续值预测），逻辑回归用于分类（二分类或多分类）；（2）输出范围：线性回归输出实数（-∞,+∞），逻辑回归通过sigmoid函数将输出压缩到（0,1），表示概率；（3）损失函数：线性回归使用均方误差（MSE），逻辑回归使用交叉熵损失（对数损失）；（4）优化目标：线性回归最小化预测值与真实值的平方差，逻辑回归最大化似然函数（等价于最小化交叉熵）。

2.支持向量机（SVM）的核心思想是什么？核函数的作用是什么？常用核函数有哪些？各自适用场景是什么？

答案：SVM的核心思想是找到一个最优分类超平面，使得训练数据中正负样本到超平面的“间隔”最大（最大间隔分类器）。对于线性不可分数据，通过核函数将低维输入空间映射到高维特征空间，使数据在高维空间中线性可分。核函数的作用是隐式完成高维映射，避免显式计算高维特征（解决维度灾难）。常用核函数：（1）线性核（K(x,x’)=x·x’）：适用于线性可分数据，计算效率高；（2）多项式核（K(x,x’)=(γx·x’+r)^d）：适用于数据分布有多项式关系的场景（