2026年数据建模工程师考试题库（附答案和详细解析）（0105）.docxVIP

下载本文档

0
0
约8.43千字
约 12页
2026-01-30 发布于江苏
举报

2026年数据建模工程师考试题库（附答案和详细解析）（0105）.docx

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪种方法最常用于解决模型过拟合问题？

A.减少训练数据量

B.增加模型复杂度

C.添加L2正则化项

D.降低学习率

答案：C

解析：过拟合的本质是模型对训练数据的噪声过度学习。L2正则化通过在损失函数中添加权重平方和的惩罚项，限制模型参数的大小，从而降低模型复杂度，缓解过拟合（正确）。减少训练数据量会加剧过拟合（A错误）；增加模型复杂度会导致过拟合更严重（B错误）；降低学习率是优化器的调整，主要影响收敛速度而非过拟合（D错误）。

分类任务中，当正负样本严重不平衡时，最适合的评估指标是？

A.准确率（Accuracy）

B.F1-score

C.均方误差（MSE）

D.R平方（R2）

答案：B

解析：准确率在类别不平衡时会失效（如99%负样本时，全预测负类准确率99%但无意义）（A错误）。F1-score是精确率和召回率的调和平均，能综合反映模型对少数类的识别能力（B正确）。MSE和R2是回归任务的指标（C、D错误）。

以下属于特征选择方法的是？

A.主成分分析（PCA）

B.卡方检验

C.标准化（Z-score）

D.独热编码（One-Hot）

答案：B

解析：卡方检验通过计算特征与目标变量的统计相关性筛选特征，属于特征选择（B正确）。PCA是特征提取（降维）（A错误）；标准化是特征缩放（C错误）；独热编码是特征变换（D错误）。

监督学习与无监督学习的核心区别是？

A.是否使用标签数据

B.模型是否有参数

C.数据是否需要预处理

D.是否用于分类任务

答案：A

解析：监督学习需要带标签的训练数据（如分类、回归），无监督学习仅使用无标签数据（如聚类、降维）（A正确）。所有模型都有参数（B错误）；数据预处理是通用步骤（C错误）；无监督学习也可用于分类（如基于聚类的半监督学习）（D错误）。

10折交叉验证的主要目的是？

A.提高模型训练速度

B.降低模型偏差

C.更可靠地评估模型泛化能力

D.减少过拟合风险

答案：C

解析：交叉验证通过将数据划分为多个子集轮流训练和验证，减少单次划分的随机性，更准确评估模型在新数据上的表现（C正确）。训练速度由算法和硬件决定（A错误）；偏差由模型复杂度决定（B错误）；减少过拟合需正则化等方法（D错误）。

梯度下降算法的优化目标是？

A.最大化训练集准确率

B.最小化损失函数

C.最大化模型可解释性

D.最小化特征数量

答案：B

解析：梯度下降是通过迭代更新参数，使损失函数（如均方误差、交叉熵）值最小化的优化方法（B正确）。准确率是评估指标非优化目标（A错误）；可解释性和特征数量是模型设计的考量（C、D错误）。

以下属于无监督学习算法的是？

A.逻辑回归（LogisticRegression）

B.K近邻（KNN）

C.K-means聚类

D.支持向量机（SVM）

答案：C

解析：K-means通过数据点间的距离自动分组，无需标签（C正确）。逻辑回归、KNN、SVM均需标签训练（A、B、D错误）。

混淆矩阵中“真阳性（TP）”是指？

A.实际正类被预测为正类

B.实际正类被预测为负类

C.实际负类被预测为正类

D.实际负类被预测为负类

答案：A

解析：混淆矩阵的行是真实类别，列是预测类别。TP对应“真实正类+预测正类”（A正确）。B为FN（假阴性），C为FP（假阳性），D为TN（真阴性）。

正则化的主要目的是？

A.提高模型训练速度

B.增强模型可解释性

C.防止过拟合

D.减少计算资源消耗

答案：C

解析：正则化通过添加惩罚项限制模型复杂度，避免模型过度拟合训练数据的噪声（C正确）。训练速度与优化器和数据量相关（A错误）；可解释性与模型类型（如线性模型vs神经网络）相关（B错误）；计算资源消耗与模型复杂度直接相关（D错误）。

以下哪种算法对特征缩放（如标准化）最敏感？

A.决策树（DecisionTree）

B.随机森林（RandomForest）

C.支持向量机（SVM）

D.梯度提升树（GBDT）

答案：C

解析：SVM的核心是最大化间隔，特征尺度不同会导致各特征对间隔的贡献失衡（如尺度大的特征主导计算），因此需要标准化（C正确）。树模型基于特征分箱，对尺度不敏感（A、B、D错误）。

二、多项选择题（共10题，每题2分，共20分）

数据清洗的主要内容包括？（至少2个正确选项）

A.缺失值处理

B.异常值检测

C.特征编码

D.重复值删除

答案：ABD

解析：数据清洗是去除数据中的“脏数据”，包括缺失值（如填充或删除）、异常值（如基于IQR或Z-score识别）、重复值（如删除冗余记录）（A、B、D正确）。特征编码（如独热编码）属

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据建模工程师考试题库（附答案和详细解析）（0105）.docxVIP