2026年数据建模工程师考试题库(附答案和详细解析)(0110).docxVIP

  • 0
  • 0
  • 约9千字
  • 约 12页
  • 2026-03-15 发布于上海
  • 举报

2026年数据建模工程师考试题库(附答案和详细解析)(0110).docx

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是F1分数的定义?

A.精确率与召回率的算术平均值

B.精确率与召回率的调和平均值

C.准确率与召回率的几何平均值

D.精确率与特异度的加权平均值

答案:B

解析:F1分数是精确率(Precision)和召回率(Recall)的调和平均,公式为(F1=2)。算术平均(A)未体现两者的平衡;几何平均(C)和特异度(D)均不符合定义。

处理数据缺失值时,最合理的策略是?

A.直接删除所有含缺失值的样本

B.用全局均值填充所有缺失特征

C.根据业务场景选择填充方法(如中位数、众数或模型预测)

D.忽略缺失值直接建模

答案:C

解析:缺失值处理需结合业务场景:数值型特征可考虑均值/中位数(避免异常值影响),分类型特征用众数,复杂场景可用KNN或回归模型预测填充。直接删除(A)会丢失信息;全局均值(B)忽略特征差异;忽略缺失值(D)会导致模型错误。

以下哪种算法属于生成式模型?

A.逻辑回归

B.支持向量机(SVM)

C.朴素贝叶斯

D.随机森林

答案:C

解析:生成式模型通过学习数据的联合概率分布(P(X,Y))进行预测(如朴素贝叶斯假设特征独立,计算(P(Y|X)P(X|Y)P(Y)))。判别式模型直接学习决策边界(P(Y|X))(逻辑回归、SVM、随机森林均属此类)。

过拟合的典型表现是?

A.训练集和测试集准确率都很低

B.训练集准确率高,测试集准确率低

C.训练集准确率低,测试集准确率高

D.训练集和测试集准确率差异小

答案:B

解析:过拟合时模型过度学习训练集的噪声和细节,导致泛化能力差,表现为训练集性能好(准确率高)但测试集性能差(准确率低)。A是欠拟合,C和D不符合过拟合定义。

特征标准化(Z-score)适用于以下哪种模型?

A.决策树

B.线性回归

C.朴素贝叶斯

D.随机森林

答案:B

解析:线性回归、SVM、神经网络等基于梯度下降的模型对特征尺度敏感,需标准化消除量纲影响。决策树(A)、随机森林(D)通过阈值划分特征,朴素贝叶斯(C)基于概率计算,均不受特征尺度影响。

以下哪项不是混淆矩阵中的指标?

A.真阳性(TP)

B.假阴性(FN)

C.准确率(Accuracy)

D.均方误差(MSE)

答案:D

解析:混淆矩阵包含TP(真阳性)、TN(真阴性)、FP(假阳性)、FN(假阴性),基于此计算准确率、精确率、召回率等。均方误差(MSE)是回归任务的评估指标,与混淆矩阵无关。

以下哪种方法用于解决类别不平衡问题?

A.特征选择

B.过采样(SMOTE)

C.正则化

D.主成分分析(PCA)

答案:B

解析:类别不平衡时,少数类样本易被忽略。过采样(如SMOTE生成少数类样本)或欠采样(减少多数类样本)可平衡类别分布。特征选择(A)优化特征集,正则化(C)防止过拟合,PCA(D)降维,均不直接解决类别不平衡。

随机森林中的“随机”不包括以下哪项?

A.随机选择样本(Bootstrap采样)

B.随机选择特征子集

C.随机初始化树的分裂阈值

D.随机生成决策树的结构

答案:C

解析:随机森林的随机性体现在:样本Bootstrap采样(A)、特征子集随机选择(B)、决策树结构随机(D)。分裂阈值由信息增益/基尼系数等指标确定(非随机),因此C错误。

以下哪项是L1正则化的主要作用?

A.防止过拟合,产生稀疏解

B.防止过拟合,平滑参数

C.加速模型训练

D.提高模型的非线性表达能力

答案:A

解析:L1正则化((L1=|w|))会使部分参数变为0,产生稀疏解(特征选择效果);L2正则化((L2=w^2))平滑参数(B)。加速训练(C)依赖优化算法,非线性能力(D)由模型结构决定。

时间序列建模中,ARIMA模型的“MA”代表?

A.自回归(AutoRegressive)

B.移动平均(MovingAverage)

C.差分(Differencing)

D.整合(Integrated)

答案:B

解析:ARIMA(p,d,q)中,p是自回归阶数(AR),d是差分阶数(I),q是移动平均阶数(MA)。移动平均项通过历史误差项建模,因此B正确。

二、多项选择题(共10题,每题2分,共20分)

以下属于特征工程的步骤有?()

A.特征提取(如TF-IDF)

B.特征选择(如卡方检验)

C.特征构造(如计算用户消费频率)

D.特征缩放(如归一化)

答案:ABCD

解析:特征工程包括提取(从原始数据生成新特征,如文本的TF-IDF)、选择(过滤冗余特征,如卡方检验)、构造(组合现有特征,如消费频率=总消费/时间)

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档