2026年数据建模工程师考试题库(附答案和详细解析)(0105).docxVIP

  • 0
  • 0
  • 约8.43千字
  • 约 12页
  • 2026-01-30 发布于江苏
  • 举报

2026年数据建模工程师考试题库(附答案和详细解析)(0105).docx

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种方法最常用于解决模型过拟合问题?

A.减少训练数据量

B.增加模型复杂度

C.添加L2正则化项

D.降低学习率

答案:C

解析:过拟合的本质是模型对训练数据的噪声过度学习。L2正则化通过在损失函数中添加权重平方和的惩罚项,限制模型参数的大小,从而降低模型复杂度,缓解过拟合(正确)。减少训练数据量会加剧过拟合(A错误);增加模型复杂度会导致过拟合更严重(B错误);降低学习率是优化器的调整,主要影响收敛速度而非过拟合(D错误)。

分类任务中,当正负样本严重不平衡时,最适合的评估指标是?

A.准确率(Accuracy)

B.F1-score

C.均方误差(MSE)

D.R平方(R2)

答案:B

解析:准确率在类别不平衡时会失效(如99%负样本时,全预测负类准确率99%但无意义)(A错误)。F1-score是精确率和召回率的调和平均,能综合反映模型对少数类的识别能力(B正确)。MSE和R2是回归任务的指标(C、D错误)。

以下属于特征选择方法的是?

A.主成分分析(PCA)

B.卡方检验

C.标准化(Z-score)

D.独热编码(One-Hot)

答案:B

解析:卡方检验通过计算特征与目标变量的统计相关性筛选特征,属于特征选择(B正确)。PCA是特征提取(降维)(A错误);标准化是特征缩放(C错误);独热编码是特征变换(D错误)。

监督学习与无监督学习的核心区别是?

A.是否使用标签数据

B.模型是否有参数

C.数据是否需要预处理

D.是否用于分类任务

答案:A

解析:监督学习需要带标签的训练数据(如分类、回归),无监督学习仅使用无标签数据(如聚类、降维)(A正确)。所有模型都有参数(B错误);数据预处理是通用步骤(C错误);无监督学习也可用于分类(如基于聚类的半监督学习)(D错误)。

10折交叉验证的主要目的是?

A.提高模型训练速度

B.降低模型偏差

C.更可靠地评估模型泛化能力

D.减少过拟合风险

答案:C

解析:交叉验证通过将数据划分为多个子集轮流训练和验证,减少单次划分的随机性,更准确评估模型在新数据上的表现(C正确)。训练速度由算法和硬件决定(A错误);偏差由模型复杂度决定(B错误);减少过拟合需正则化等方法(D错误)。

梯度下降算法的优化目标是?

A.最大化训练集准确率

B.最小化损失函数

C.最大化模型可解释性

D.最小化特征数量

答案:B

解析:梯度下降是通过迭代更新参数,使损失函数(如均方误差、交叉熵)值最小化的优化方法(B正确)。准确率是评估指标非优化目标(A错误);可解释性和特征数量是模型设计的考量(C、D错误)。

以下属于无监督学习算法的是?

A.逻辑回归(LogisticRegression)

B.K近邻(KNN)

C.K-means聚类

D.支持向量机(SVM)

答案:C

解析:K-means通过数据点间的距离自动分组,无需标签(C正确)。逻辑回归、KNN、SVM均需标签训练(A、B、D错误)。

混淆矩阵中“真阳性(TP)”是指?

A.实际正类被预测为正类

B.实际正类被预测为负类

C.实际负类被预测为正类

D.实际负类被预测为负类

答案:A

解析:混淆矩阵的行是真实类别,列是预测类别。TP对应“真实正类+预测正类”(A正确)。B为FN(假阴性),C为FP(假阳性),D为TN(真阴性)。

正则化的主要目的是?

A.提高模型训练速度

B.增强模型可解释性

C.防止过拟合

D.减少计算资源消耗

答案:C

解析:正则化通过添加惩罚项限制模型复杂度,避免模型过度拟合训练数据的噪声(C正确)。训练速度与优化器和数据量相关(A错误);可解释性与模型类型(如线性模型vs神经网络)相关(B错误);计算资源消耗与模型复杂度直接相关(D错误)。

以下哪种算法对特征缩放(如标准化)最敏感?

A.决策树(DecisionTree)

B.随机森林(RandomForest)

C.支持向量机(SVM)

D.梯度提升树(GBDT)

答案:C

解析:SVM的核心是最大化间隔,特征尺度不同会导致各特征对间隔的贡献失衡(如尺度大的特征主导计算),因此需要标准化(C正确)。树模型基于特征分箱,对尺度不敏感(A、B、D错误)。

二、多项选择题(共10题,每题2分,共20分)

数据清洗的主要内容包括?(至少2个正确选项)

A.缺失值处理

B.异常值检测

C.特征编码

D.重复值删除

答案:ABD

解析:数据清洗是去除数据中的“脏数据”,包括缺失值(如填充或删除)、异常值(如基于IQR或Z-score识别)、重复值(如删除冗余记录)(A、B、D正确)。特征编码(如独热编码)属

文档评论(0)

1亿VIP精品文档

相关文档