2025年数据建模工程师考试题库(附答案和详细解析)(1221).docxVIP

  • 0
  • 0
  • 约8.52千字
  • 约 12页
  • 2026-03-14 发布于上海
  • 举报

2025年数据建模工程师考试题库(附答案和详细解析)(1221).docx

数据建模工程师专业能力考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是数据清洗中处理缺失值的常用方法?

A.对分类变量进行独热编码

B.使用K近邻算法(KNN)填充

C.直接删除所有含缺失值的特征

D.对数值变量进行标准化处理

答案:B

解析:数据清洗中处理缺失值的常用方法包括删除法(仅当缺失比例极低时)、统计填充(均值/中位数)、模型填充(如KNN、回归)等。选项A是特征工程中的编码方法,选项C过于极端(可能丢失重要信息),选项D是数据标准化操作,属于特征预处理。正确选项为B。

在分类任务中,若关注“正类样本被正确识别的比例”,应选择以下哪个评估指标?

A.准确率(Accuracy)

B.精确率(Precision)

C.召回率(Recall)

D.F1分数

答案:C

解析:召回率(Recall)定义为“真阳性/(真阳性+假阴性)”,反映正类样本被正确识别的比例;准确率是整体正确比例,精确率是“真阳性/(真阳性+假阳性)”,F1是精确率与召回率的调和平均。正确选项为C。

以下哪种情况最可能导致模型过拟合?

A.增加训练数据量

B.降低模型复杂度(如减少决策树深度)

C.使用L2正则化

D.对训练数据进行随机噪声扰动

答案:无正确选项(注:原题选项设置需调整,正确应为“增加模型复杂度(如增加神经网络层数)”。此处假设用户允许修正,实际命题需避免此类错误。)

(注:为符合规范,补充正确题目示例)

修正后题目:以下哪种情况最可能导致模型过拟合?

A.增加训练数据量

B.减少决策树最大深度

C.对特征进行多项式扩展(阶数过高)

D.使用L1正则化

答案:C

解析:过拟合的核心原因是模型复杂度远高于数据复杂度。选项A(增加数据量)、B(降低复杂度)、D(正则化)均缓解过拟合;选项C(高阶多项式扩展)会显著增加模型复杂度,导致过拟合。正确选项为C。

时间序列建模中,“自回归模型(AR)”的核心假设是?

A.未来值仅与过去固定滞后期的值相关

B.未来值与所有历史值的加权和相关

C.序列具有季节性波动

D.误差项服从均匀分布

答案:A

解析:AR(p)模型假设当前值由前p期的滞后值线性组合决定(如AR(2):Yt=c+φ1Yt-1+φ2Yt-2+εt),核心是固定滞后期的依赖关系。选项B是移动平均(MA)模型的假设,选项C是季节模型的特征,选项D错误(误差项通常假设为正态分布)。正确选项为A。

在特征工程中,“分箱(Binning)”操作的主要目的是?

A.消除特征量纲影响

B.将连续变量转化为离散变量,捕捉非线性关系

C.减少特征维度

D.提高模型计算效率

答案:B

解析:分箱通过将连续特征划分为区间(如年龄分为0-18、19-30等),将连续变量离散化,可捕捉变量与目标的非线性关系(如年龄与疾病风险的非单调关系)。选项A是标准化/归一化的目的,选项C是特征选择的目的,选项D是降维的间接效果。正确选项为B。

以下哪类模型天然支持多分类任务?

A.逻辑回归(LogisticRegression)

B.支持向量机(SVM)

C.随机森林(RandomForest)

D.感知机(Perceptron)

答案:C

解析:随机森林通过投票机制直接支持多分类(每个树输出类别概率,最终取多数票);逻辑回归需扩展为Softmax回归,SVM需通过一对多(OvR)或一对一(OvO)策略,感知机本质是二分类模型。正确选项为C。

评估回归模型时,“均方误差(MSE)”与“平均绝对误差(MAE)”的主要区别是?

A.MSE对异常值更敏感

B.MAE计算更复杂

C.MSE反映预测值的平均偏离程度

D.MAE的单位与目标变量不一致

答案:A

解析:MSE是误差平方的均值,异常值的平方会显著放大其影响;MAE是误差绝对值的均值,对异常值更鲁棒。选项B错误(两者计算复杂度相近),选项C是MAE的描述,选项D错误(两者单位均与目标变量一致)。正确选项为A。

在K折交叉验证中,“留一法(Leave-One-Out)”属于K的取值为?

A.K=2

B.K=5

C.K=样本量n

D.K=10

答案:C

解析:留一法每次取1个样本作为验证集,剩余n-1个作为训练集,相当于K=n的交叉验证。正确选项为C。

以下哪种模型可用于因果推断?

A.线性回归(LinearRegression)

B.倾向得分匹配(PSM)

C.梯度提升树(XGBoost)

D.K均值聚类(K-means)

答案:B

解析:倾向得分匹配通过估计个体接受处理的概率(倾向得分),匹配处理组与对照组,减少选择偏倚,是因果推断的常用方法。选项A、C是预测模型(关注相关关系),选项D是无监督学习(不涉

文档评论(0)

1亿VIP精品文档

相关文档