2025年数据建模工程师考试题库（附答案和详细解析）（1221）.docxVIP

下载本文档

0
0
约8.52千字
约 12页
2026-03-14 发布于上海
举报

2025年数据建模工程师考试题库（附答案和详细解析）（1221）.docx

数据建模工程师专业能力考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是数据清洗中处理缺失值的常用方法？

A.对分类变量进行独热编码

B.使用K近邻算法（KNN）填充

C.直接删除所有含缺失值的特征

D.对数值变量进行标准化处理

答案：B

解析：数据清洗中处理缺失值的常用方法包括删除法（仅当缺失比例极低时）、统计填充（均值/中位数）、模型填充（如KNN、回归）等。选项A是特征工程中的编码方法，选项C过于极端（可能丢失重要信息），选项D是数据标准化操作，属于特征预处理。正确选项为B。

在分类任务中，若关注“正类样本被正确识别的比例”，应选择以下哪个评估指标？

A.准确率（Accuracy）

B.精确率（Precision）

C.召回率（Recall）

D.F1分数

答案：C

解析：召回率（Recall）定义为“真阳性/(真阳性+假阴性)”，反映正类样本被正确识别的比例；准确率是整体正确比例，精确率是“真阳性/(真阳性+假阳性)”，F1是精确率与召回率的调和平均。正确选项为C。

以下哪种情况最可能导致模型过拟合？

A.增加训练数据量

B.降低模型复杂度（如减少决策树深度）

C.使用L2正则化

D.对训练数据进行随机噪声扰动

答案：无正确选项（注：原题选项设置需调整，正确应为“增加模型复杂度（如增加神经网络层数）”。此处假设用户允许修正，实际命题需避免此类错误。）

（注：为符合规范，补充正确题目示例）

修正后题目：以下哪种情况最可能导致模型过拟合？

A.增加训练数据量

B.减少决策树最大深度

C.对特征进行多项式扩展（阶数过高）

D.使用L1正则化

答案：C

解析：过拟合的核心原因是模型复杂度远高于数据复杂度。选项A（增加数据量）、B（降低复杂度）、D（正则化）均缓解过拟合；选项C（高阶多项式扩展）会显著增加模型复杂度，导致过拟合。正确选项为C。

时间序列建模中，“自回归模型（AR）”的核心假设是？

A.未来值仅与过去固定滞后期的值相关

B.未来值与所有历史值的加权和相关

C.序列具有季节性波动

D.误差项服从均匀分布

答案：A

解析：AR(p)模型假设当前值由前p期的滞后值线性组合决定（如AR(2)：Yt=c+φ1Yt-1+φ2Yt-2+εt），核心是固定滞后期的依赖关系。选项B是移动平均（MA）模型的假设，选项C是季节模型的特征，选项D错误（误差项通常假设为正态分布）。正确选项为A。

在特征工程中，“分箱（Binning）”操作的主要目的是？

A.消除特征量纲影响

B.将连续变量转化为离散变量，捕捉非线性关系

C.减少特征维度

D.提高模型计算效率

答案：B

解析：分箱通过将连续特征划分为区间（如年龄分为0-18、19-30等），将连续变量离散化，可捕捉变量与目标的非线性关系（如年龄与疾病风险的非单调关系）。选项A是标准化/归一化的目的，选项C是特征选择的目的，选项D是降维的间接效果。正确选项为B。

以下哪类模型天然支持多分类任务？

A.逻辑回归（LogisticRegression）

B.支持向量机（SVM）

C.随机森林（RandomForest）

D.感知机（Perceptron）

答案：C

解析：随机森林通过投票机制直接支持多分类（每个树输出类别概率，最终取多数票）；逻辑回归需扩展为Softmax回归，SVM需通过一对多（OvR）或一对一（OvO）策略，感知机本质是二分类模型。正确选项为C。

评估回归模型时，“均方误差（MSE）”与“平均绝对误差（MAE）”的主要区别是？

A.MSE对异常值更敏感

B.MAE计算更复杂

C.MSE反映预测值的平均偏离程度

D.MAE的单位与目标变量不一致

答案：A

解析：MSE是误差平方的均值，异常值的平方会显著放大其影响；MAE是误差绝对值的均值，对异常值更鲁棒。选项B错误（两者计算复杂度相近），选项C是MAE的描述，选项D错误（两者单位均与目标变量一致）。正确选项为A。

在K折交叉验证中，“留一法（Leave-One-Out）”属于K的取值为？

A.K=2

B.K=5

C.K=样本量n

D.K=10

答案：C

解析：留一法每次取1个样本作为验证集，剩余n-1个作为训练集，相当于K=n的交叉验证。正确选项为C。

以下哪种模型可用于因果推断？

A.线性回归（LinearRegression）

B.倾向得分匹配（PSM）

C.梯度提升树（XGBoost）

D.K均值聚类（K-means）

答案：B

解析：倾向得分匹配通过估计个体接受处理的概率（倾向得分），匹配处理组与对照组，减少选择偏倚，是因果推断的常用方法。选项A、C是预测模型（关注相关关系），选项D是无监督学习（不涉

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年数据建模工程师考试题库（附答案和详细解析）（1221）.docxVIP