- 0
- 0
- 约8.43千字
- 约 12页
- 2026-01-30 发布于江苏
- 举报
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种方法最常用于解决模型过拟合问题?
A.减少训练数据量
B.增加模型复杂度
C.添加L2正则化项
D.降低学习率
答案:C
解析:过拟合的本质是模型对训练数据的噪声过度学习。L2正则化通过在损失函数中添加权重平方和的惩罚项,限制模型参数的大小,从而降低模型复杂度,缓解过拟合(正确)。减少训练数据量会加剧过拟合(A错误);增加模型复杂度会导致过拟合更严重(B错误);降低学习率是优化器的调整,主要影响收敛速度而非过拟合(D错误)。
分类任务中,当正负样本严重不平衡时,最适合的评估指标是?
A.准确率(Accuracy)
B.F1-score
C.均方误差(MSE)
D.R平方(R2)
答案:B
解析:准确率在类别不平衡时会失效(如99%负样本时,全预测负类准确率99%但无意义)(A错误)。F1-score是精确率和召回率的调和平均,能综合反映模型对少数类的识别能力(B正确)。MSE和R2是回归任务的指标(C、D错误)。
以下属于特征选择方法的是?
A.主成分分析(PCA)
B.卡方检验
C.标准化(Z-score)
D.独热编码(One-Hot)
答案:B
解析:卡方检验通过计算特征与目标变量的统计相关性筛选特征,属于特征选择(B正确)。PCA是特征提取(降维)(A错误);标准化是特征缩放(C错误);独热编码是特征变换(D错误)。
监督学习与无监督学习的核心区别是?
A.是否使用标签数据
B.模型是否有参数
C.数据是否需要预处理
D.是否用于分类任务
答案:A
解析:监督学习需要带标签的训练数据(如分类、回归),无监督学习仅使用无标签数据(如聚类、降维)(A正确)。所有模型都有参数(B错误);数据预处理是通用步骤(C错误);无监督学习也可用于分类(如基于聚类的半监督学习)(D错误)。
10折交叉验证的主要目的是?
A.提高模型训练速度
B.降低模型偏差
C.更可靠地评估模型泛化能力
D.减少过拟合风险
答案:C
解析:交叉验证通过将数据划分为多个子集轮流训练和验证,减少单次划分的随机性,更准确评估模型在新数据上的表现(C正确)。训练速度由算法和硬件决定(A错误);偏差由模型复杂度决定(B错误);减少过拟合需正则化等方法(D错误)。
梯度下降算法的优化目标是?
A.最大化训练集准确率
B.最小化损失函数
C.最大化模型可解释性
D.最小化特征数量
答案:B
解析:梯度下降是通过迭代更新参数,使损失函数(如均方误差、交叉熵)值最小化的优化方法(B正确)。准确率是评估指标非优化目标(A错误);可解释性和特征数量是模型设计的考量(C、D错误)。
以下属于无监督学习算法的是?
A.逻辑回归(LogisticRegression)
B.K近邻(KNN)
C.K-means聚类
D.支持向量机(SVM)
答案:C
解析:K-means通过数据点间的距离自动分组,无需标签(C正确)。逻辑回归、KNN、SVM均需标签训练(A、B、D错误)。
混淆矩阵中“真阳性(TP)”是指?
A.实际正类被预测为正类
B.实际正类被预测为负类
C.实际负类被预测为正类
D.实际负类被预测为负类
答案:A
解析:混淆矩阵的行是真实类别,列是预测类别。TP对应“真实正类+预测正类”(A正确)。B为FN(假阴性),C为FP(假阳性),D为TN(真阴性)。
正则化的主要目的是?
A.提高模型训练速度
B.增强模型可解释性
C.防止过拟合
D.减少计算资源消耗
答案:C
解析:正则化通过添加惩罚项限制模型复杂度,避免模型过度拟合训练数据的噪声(C正确)。训练速度与优化器和数据量相关(A错误);可解释性与模型类型(如线性模型vs神经网络)相关(B错误);计算资源消耗与模型复杂度直接相关(D错误)。
以下哪种算法对特征缩放(如标准化)最敏感?
A.决策树(DecisionTree)
B.随机森林(RandomForest)
C.支持向量机(SVM)
D.梯度提升树(GBDT)
答案:C
解析:SVM的核心是最大化间隔,特征尺度不同会导致各特征对间隔的贡献失衡(如尺度大的特征主导计算),因此需要标准化(C正确)。树模型基于特征分箱,对尺度不敏感(A、B、D错误)。
二、多项选择题(共10题,每题2分,共20分)
数据清洗的主要内容包括?(至少2个正确选项)
A.缺失值处理
B.异常值检测
C.特征编码
D.重复值删除
答案:ABD
解析:数据清洗是去除数据中的“脏数据”,包括缺失值(如填充或删除)、异常值(如基于IQR或Z-score识别)、重复值(如删除冗余记录)(A、B、D正确)。特征编码(如独热编码)属
您可能关注的文档
- 2025年执业医师资格考试考试题库(附答案和详细解析)(1225).docx
- 2026年残障服务协调员考试题库(附答案和详细解析)(0107).docx
- 2026年法律职业资格考试(法考)考试题库(附答案和详细解析)(0108).docx
- 2026年注册信息系统审计师(CISA)考试题库(附答案和详细解析)(0110).docx
- 2026年注册化工工程师考试题库(附答案和详细解析)(0111).docx
- 2026年量化金融证书(CQF)考试题库(附答案和详细解析)(0107).docx
- 2026年项目管理专业人士(PMP)考试题库(附答案和详细解析)(0111).docx
- SQLite的轻量级数据库应用.docx
- STEM教育项目式学习的案例设计.docx
- 上合组织安全合作机制的升级方向.docx
原创力文档

文档评论(0)