2026年数据建模工程师考试题库（附答案和详细解析）（0110）.docxVIP

下载本文档

0
0
约9千字
约 12页
2026-03-15 发布于上海
举报

2026年数据建模工程师考试题库（附答案和详细解析）（0110）.docx

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是F1分数的定义？

A.精确率与召回率的算术平均值

B.精确率与召回率的调和平均值

C.准确率与召回率的几何平均值

D.精确率与特异度的加权平均值

答案：B

解析：F1分数是精确率（Precision）和召回率（Recall）的调和平均，公式为(F1=2)。算术平均（A）未体现两者的平衡；几何平均（C）和特异度（D）均不符合定义。

处理数据缺失值时，最合理的策略是？

A.直接删除所有含缺失值的样本

B.用全局均值填充所有缺失特征

C.根据业务场景选择填充方法（如中位数、众数或模型预测）

D.忽略缺失值直接建模

答案：C

解析：缺失值处理需结合业务场景：数值型特征可考虑均值/中位数（避免异常值影响），分类型特征用众数，复杂场景可用KNN或回归模型预测填充。直接删除（A）会丢失信息；全局均值（B）忽略特征差异；忽略缺失值（D）会导致模型错误。

以下哪种算法属于生成式模型？

A.逻辑回归

B.支持向量机（SVM）

C.朴素贝叶斯

D.随机森林

答案：C

解析：生成式模型通过学习数据的联合概率分布(P(X,Y))进行预测（如朴素贝叶斯假设特征独立，计算(P(Y|X)P(X|Y)P(Y))）。判别式模型直接学习决策边界(P(Y|X))（逻辑回归、SVM、随机森林均属此类）。

过拟合的典型表现是？

A.训练集和测试集准确率都很低

B.训练集准确率高，测试集准确率低

C.训练集准确率低，测试集准确率高

D.训练集和测试集准确率差异小

答案：B

解析：过拟合时模型过度学习训练集的噪声和细节，导致泛化能力差，表现为训练集性能好（准确率高）但测试集性能差（准确率低）。A是欠拟合，C和D不符合过拟合定义。

特征标准化（Z-score）适用于以下哪种模型？

A.决策树

B.线性回归

C.朴素贝叶斯

D.随机森林

答案：B

解析：线性回归、SVM、神经网络等基于梯度下降的模型对特征尺度敏感，需标准化消除量纲影响。决策树（A）、随机森林（D）通过阈值划分特征，朴素贝叶斯（C）基于概率计算，均不受特征尺度影响。

以下哪项不是混淆矩阵中的指标？

A.真阳性（TP）

B.假阴性（FN）

C.准确率（Accuracy）

D.均方误差（MSE）

答案：D

解析：混淆矩阵包含TP（真阳性）、TN（真阴性）、FP（假阳性）、FN（假阴性），基于此计算准确率、精确率、召回率等。均方误差（MSE）是回归任务的评估指标，与混淆矩阵无关。

以下哪种方法用于解决类别不平衡问题？

A.特征选择

B.过采样（SMOTE）

C.正则化

D.主成分分析（PCA）

答案：B

解析：类别不平衡时，少数类样本易被忽略。过采样（如SMOTE生成少数类样本）或欠采样（减少多数类样本）可平衡类别分布。特征选择（A）优化特征集，正则化（C）防止过拟合，PCA（D）降维，均不直接解决类别不平衡。

随机森林中的“随机”不包括以下哪项？

A.随机选择样本（Bootstrap采样）

B.随机选择特征子集

C.随机初始化树的分裂阈值

D.随机生成决策树的结构

答案：C

解析：随机森林的随机性体现在：样本Bootstrap采样（A）、特征子集随机选择（B）、决策树结构随机（D）。分裂阈值由信息增益/基尼系数等指标确定（非随机），因此C错误。

以下哪项是L1正则化的主要作用？

A.防止过拟合，产生稀疏解

B.防止过拟合，平滑参数

C.加速模型训练

D.提高模型的非线性表达能力

答案：A

解析：L1正则化（(L1=|w|)）会使部分参数变为0，产生稀疏解（特征选择效果）；L2正则化（(L2=w^2)）平滑参数（B）。加速训练（C）依赖优化算法，非线性能力（D）由模型结构决定。

时间序列建模中，ARIMA模型的“MA”代表？

A.自回归（AutoRegressive）

B.移动平均（MovingAverage）

C.差分（Differencing）

D.整合（Integrated）

答案：B

解析：ARIMA(p,d,q)中，p是自回归阶数（AR），d是差分阶数（I），q是移动平均阶数（MA）。移动平均项通过历史误差项建模，因此B正确。

二、多项选择题（共10题，每题2分，共20分）

以下属于特征工程的步骤有？（）

A.特征提取（如TF-IDF）

B.特征选择（如卡方检验）

C.特征构造（如计算用户消费频率）

D.特征缩放（如归一化）

答案：ABCD

解析：特征工程包括提取（从原始数据生成新特征，如文本的TF-IDF）、选择（过滤冗余特征，如卡方检验）、构造（组合现有特征，如消费频率=总消费/时间）

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据建模工程师考试题库（附答案和详细解析）（0110）.docxVIP