2026年数据建模工程师考试题库（附答案和详细解析）（0127）.docxVIP

下载本文档

1
0
约7.01千字
约 11页
2026-02-12 发布于上海
举报

2026年数据建模工程师考试题库（附答案和详细解析）（0127）.docx

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是处理缺失值的合理策略？

A.直接删除所有含缺失值的样本

B.对所有数值型特征用均值填充

C.根据业务场景选择删除、填充或建模处理

D.对所有类别型特征用众数填充

答案：C

解析：缺失值处理需结合业务场景：直接删除（样本量充足时）、填充（均值/中位数/众数或模型预测）、建模（将缺失作为独立类别）。A可能丢失关键信息；B忽略特征分布（如偏态分布用中位数更合适）；D未考虑缺失模式（如缺失可能隐含业务含义）。

评估分类模型时，F1-score主要反映以下哪对指标的平衡？

A.准确率与召回率

B.精确率与召回率

C.精确率与准确率

D.召回率与特异度

答案：B

解析：F1-score是精确率（Precision）和召回率（Recall）的调和平均数，公式为(F1=2)，用于平衡两者的重要性。准确率是整体正确比例，特异度是负类正确识别率，均不直接参与F1计算。

以下哪种情况最可能导致模型过拟合？

A.训练数据量远大于测试数据量

B.模型复杂度低且特征数量少

C.训练集准确率95%，测试集准确率60%

D.对特征进行标准化处理

答案：C

解析：过拟合表现为模型在训练集效果好但泛化能力差（测试集效果显著下降）。A不直接导致过拟合；B是欠拟合特征；D是常规预处理，降低模型对尺度的敏感。

特征分箱（Binning）的主要目的是？

A.增加特征维度

B.消除特征噪声，提升模型稳定性

C.减少计算复杂度

D.提高特征的稀疏性

答案：B

解析：分箱通过将连续特征离散化为区间，可降低噪声影响（如异常值）、捕捉非线性关系，并提升模型对数据波动的鲁棒性。A错误（分箱减少维度）；C是降维的目的；D是独热编码的效果。

L2正则化的主要作用是？

A.使模型权重稀疏化

B.防止模型过拟合

C.加速梯度下降收敛

D.解决类别不平衡问题

答案：B

解析：L2正则化通过在损失函数中添加权重平方和（(w^2)），惩罚大权重，限制模型复杂度，从而防止过拟合。A是L1正则化的作用；C是优化器（如动量梯度下降）的功能；D需通过采样或调整类别权重解决。

时间序列建模中，ARIMA(p,d,q)的“d”参数表示？

A.自回归阶数

B.差分次数

C.移动平均阶数

D.季节周期长度

答案：B

解析：ARIMA模型中，p是自回归（AR）阶数，d是差分次数（用于消除非平稳性），q是移动平均（MA）阶数。季节周期长度由SARIMA的参数s表示。

以下哪种算法属于无监督学习？

A.逻辑回归

B.K-means聚类

C.随机森林

D.XGBoost

答案：B

解析：无监督学习无标签数据，K-means通过数据点间距聚类。A、C、D均需标签训练（监督学习）。

数据建模流程中，“特征重要性分析”通常在哪个阶段进行？

A.数据清洗

B.模型训练

C.模型评估

D.特征工程

答案：B

解析：特征重要性分析（如树模型的Gini重要性、线性模型的系数）通常在模型训练后，用于验证特征有效性，指导特征选择或业务解释。

处理类别不平衡数据时，以下哪项策略不合理？

A.对少数类进行过采样（Oversampling）

B.对多数类进行欠采样（Undersampling）

C.调整模型损失函数的类别权重

D.直接删除少数类样本

答案：D

解析：直接删除少数类会丢失关键信息，导致模型忽略少数类模式。A、B、C均为常见平衡策略（需注意过采样可能导致过拟合，欠采样可能丢失信息）。

以下哪项不是模型部署前需要验证的内容？

A.模型推理速度

B.数据输入格式兼容性

C.训练集与生产数据分布一致性

D.模型在训练集上的准确率

答案：D

解析：部署前需验证模型在生产环境的表现（推理速度、输入兼容性、数据分布一致性），训练集准确率仅反映拟合能力，无法说明泛化性。

二、多项选择题（共10题，每题2分，共20分）

数据清洗的主要内容包括？（至少2个正确选项）

A.处理缺失值

B.识别并修正异常值

C.去除重复样本

D.对特征进行标准化

答案：ABC

解析：数据清洗针对“脏数据”（缺失、异常、重复）；D属于数据变换（预处理步骤），非清洗范畴。

以下属于分类任务评估指标的有？

A.均方误差（MSE）

B.精确率（Precision）

C.ROC-AUC

D.决定系数（R2）

答案：BC

解析：分类评估指标包括精确率、召回率、F1、ROC-AUC等；MSE和R2是回归任务指标。

特征选择的常用方法包括？

A.过滤法（Filter）：基于统计量筛选

B.包装法（Wrapper）：基于模型性能筛选

C.嵌入法（Embedded）：模型内置特征选择

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据建模工程师考试题库（附答案和详细解析）（0127）.docxVIP