2026年数据建模工程师考试题库(附答案和详细解析)(0112).docxVIP

  • 0
  • 0
  • 约8.12千字
  • 约 11页
  • 2026-02-10 发布于上海
  • 举报

2026年数据建模工程师考试题库(附答案和详细解析)(0112).docx

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在分类任务中,若真实标签为正类的样本被预测为负类,对应的混淆矩阵指标是?

A.真阳性(TP)

B.假阳性(FP)

C.真阴性(TN)

D.假阴性(FN)

答案:D

解析:混淆矩阵中,TP(真阳性)是真实正类被正确预测为正类,FP(假阳性)是真实负类被错误预测为正类,TN(真阴性)是真实负类被正确预测为负类,FN(假阴性)是真实正类被错误预测为负类。因此本题选D。

以下哪种特征编码方法适用于高基数类别特征(如用户ID)?

A.独热编码(One-HotEncoding)

B.标签编码(LabelEncoding)

C.目标编码(TargetEncoding)

D.二进制编码(BinaryEncoding)

答案:C

解析:独热编码对高基数特征会产生维度爆炸问题;标签编码无法捕捉类别与目标的关联;二进制编码通过将类别转换为二进制位减少维度,但目标编码(利用目标变量的统计量编码)更适合高基数特征,能有效保留类别与目标的关联信息,因此选C。

以下哪项是解决模型过拟合的常用方法?

A.增加模型复杂度

B.减少训练数据量

C.添加L2正则化

D.降低学习率

答案:C

解析:过拟合是模型对训练数据过度拟合,泛化能力差。增加模型复杂度(A)、减少训练数据(B)会加剧过拟合;降低学习率(D)主要影响优化速度而非过拟合;L2正则化通过惩罚大权重参数,限制模型复杂度,是解决过拟合的常用方法,因此选C。

评估回归模型时,以下哪个指标对异常值最敏感?

A.均方误差(MSE)

B.平均绝对误差(MAE)

C.R2决定系数

D.中位数绝对误差(MedAE)

答案:A

解析:MSE计算误差的平方,异常值的平方会显著放大误差值;MAE和MedAE使用绝对误差,对异常值的敏感度较低;R2反映模型解释方差的比例,受异常值影响较小。因此选A。

k折交叉验证的主要目的是?

A.加速模型训练

B.减少计算资源消耗

C.评估模型泛化能力

D.选择最优超参数

答案:C

解析:交叉验证通过将数据划分为k个子集,轮流作为验证集,最终取平均性能,能更可靠地评估模型在未见过数据上的表现(泛化能力)。加速训练(A)和减少资源(B)是并行计算或简化模型的目的;选择超参数(D)是网格搜索等方法的目的。因此选C。

以下属于集成学习中“提升(Boosting)”方法的是?

A.随机森林(RandomForest)

B.梯度提升树(GBDT)

C.极端随机树(ExtraTrees)

D.隔离森林(IsolationForest)

答案:B

解析:随机森林和极端随机树是基于“Bagging”的集成方法(并行训练多个弱模型);隔离森林用于异常检测;梯度提升树是“Boosting”方法(串行训练,每轮修正前一轮的错误),因此选B。

特征选择的主要目的是?

A.增加模型复杂度

B.减少冗余特征,降低计算成本

C.提高特征的可解释性

D.B和C

答案:D

解析:特征选择通过去除冗余或无关特征,既降低模型计算成本(减少维度),又保留关键特征以提高可解释性。增加复杂度(A)是特征构造的可能结果,非选择目的。因此选D。

在线学习(OnlineLearning)的核心特点是?

A.一次性处理所有数据

B.模型可增量更新

C.要求数据独立同分布

D.B和C

答案:D

解析:在线学习逐批或逐样本更新模型(增量更新),但要求数据满足独立同分布假设(否则模型会漂移)。一次性处理数据(A)是批量学习的特点。因此选D。

模型部署时,以下哪项是关键步骤?

A.模型压缩(如剪枝、量化)

B.数据预处理代码重写

C.选择开发环境(如JupyterNotebook)

D.A和B

答案:D

解析:模型部署需考虑推理效率(压缩模型)和生产环境与训练环境的一致性(重写预处理代码以避免部署后数据处理不一致)。开发环境(C)是训练阶段的工具,非部署关键。因此选D。

以下哪种场景可能导致数据泄露(DataLeakage)?

A.训练集和测试集使用相同的时间范围

B.对训练集和测试集分别做标准化

C.在特征工程中使用测试集的统计量(如均值)

D.对类别不平衡数据进行过采样

答案:C

解析:数据泄露指测试集信息在训练阶段被模型获取。若特征工程(如标准化)使用测试集的统计量(均值、标准差),会导致训练数据包含测试集信息,模型泛化能力被高估。A是时间序列划分问题,B是正确操作(测试集应使用训练集的统计量),D是解决类别不平衡的合理方法。因此选C。

二、多项选择题(共10题,每题2分,共20分)

数据预处理的主要内容包括()?

A.缺失值处理

B.异常值检测

C.特征构造

D.

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档