2026年数据建模工程师考试题库(附答案和详细解析)(0127).docxVIP

  • 1
  • 0
  • 约7.01千字
  • 约 11页
  • 2026-02-12 发布于上海
  • 举报

2026年数据建模工程师考试题库(附答案和详细解析)(0127).docx

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是处理缺失值的合理策略?

A.直接删除所有含缺失值的样本

B.对所有数值型特征用均值填充

C.根据业务场景选择删除、填充或建模处理

D.对所有类别型特征用众数填充

答案:C

解析:缺失值处理需结合业务场景:直接删除(样本量充足时)、填充(均值/中位数/众数或模型预测)、建模(将缺失作为独立类别)。A可能丢失关键信息;B忽略特征分布(如偏态分布用中位数更合适);D未考虑缺失模式(如缺失可能隐含业务含义)。

评估分类模型时,F1-score主要反映以下哪对指标的平衡?

A.准确率与召回率

B.精确率与召回率

C.精确率与准确率

D.召回率与特异度

答案:B

解析:F1-score是精确率(Precision)和召回率(Recall)的调和平均数,公式为(F1=2),用于平衡两者的重要性。准确率是整体正确比例,特异度是负类正确识别率,均不直接参与F1计算。

以下哪种情况最可能导致模型过拟合?

A.训练数据量远大于测试数据量

B.模型复杂度低且特征数量少

C.训练集准确率95%,测试集准确率60%

D.对特征进行标准化处理

答案:C

解析:过拟合表现为模型在训练集效果好但泛化能力差(测试集效果显著下降)。A不直接导致过拟合;B是欠拟合特征;D是常规预处理,降低模型对尺度的敏感。

特征分箱(Binning)的主要目的是?

A.增加特征维度

B.消除特征噪声,提升模型稳定性

C.减少计算复杂度

D.提高特征的稀疏性

答案:B

解析:分箱通过将连续特征离散化为区间,可降低噪声影响(如异常值)、捕捉非线性关系,并提升模型对数据波动的鲁棒性。A错误(分箱减少维度);C是降维的目的;D是独热编码的效果。

L2正则化的主要作用是?

A.使模型权重稀疏化

B.防止模型过拟合

C.加速梯度下降收敛

D.解决类别不平衡问题

答案:B

解析:L2正则化通过在损失函数中添加权重平方和((w^2)),惩罚大权重,限制模型复杂度,从而防止过拟合。A是L1正则化的作用;C是优化器(如动量梯度下降)的功能;D需通过采样或调整类别权重解决。

时间序列建模中,ARIMA(p,d,q)的“d”参数表示?

A.自回归阶数

B.差分次数

C.移动平均阶数

D.季节周期长度

答案:B

解析:ARIMA模型中,p是自回归(AR)阶数,d是差分次数(用于消除非平稳性),q是移动平均(MA)阶数。季节周期长度由SARIMA的参数s表示。

以下哪种算法属于无监督学习?

A.逻辑回归

B.K-means聚类

C.随机森林

D.XGBoost

答案:B

解析:无监督学习无标签数据,K-means通过数据点间距聚类。A、C、D均需标签训练(监督学习)。

数据建模流程中,“特征重要性分析”通常在哪个阶段进行?

A.数据清洗

B.模型训练

C.模型评估

D.特征工程

答案:B

解析:特征重要性分析(如树模型的Gini重要性、线性模型的系数)通常在模型训练后,用于验证特征有效性,指导特征选择或业务解释。

处理类别不平衡数据时,以下哪项策略不合理?

A.对少数类进行过采样(Oversampling)

B.对多数类进行欠采样(Undersampling)

C.调整模型损失函数的类别权重

D.直接删除少数类样本

答案:D

解析:直接删除少数类会丢失关键信息,导致模型忽略少数类模式。A、B、C均为常见平衡策略(需注意过采样可能导致过拟合,欠采样可能丢失信息)。

以下哪项不是模型部署前需要验证的内容?

A.模型推理速度

B.数据输入格式兼容性

C.训练集与生产数据分布一致性

D.模型在训练集上的准确率

答案:D

解析:部署前需验证模型在生产环境的表现(推理速度、输入兼容性、数据分布一致性),训练集准确率仅反映拟合能力,无法说明泛化性。

二、多项选择题(共10题,每题2分,共20分)

数据清洗的主要内容包括?(至少2个正确选项)

A.处理缺失值

B.识别并修正异常值

C.去除重复样本

D.对特征进行标准化

答案:ABC

解析:数据清洗针对“脏数据”(缺失、异常、重复);D属于数据变换(预处理步骤),非清洗范畴。

以下属于分类任务评估指标的有?

A.均方误差(MSE)

B.精确率(Precision)

C.ROC-AUC

D.决定系数(R2)

答案:BC

解析:分类评估指标包括精确率、召回率、F1、ROC-AUC等;MSE和R2是回归任务指标。

特征选择的常用方法包括?

A.过滤法(Filter):基于统计量筛选

B.包装法(Wrapper):基于模型性能筛选

C.嵌入法(Embedded):模型内置特征选择

D.

文档评论(0)

1亿VIP精品文档

相关文档