2026年数据建模工程师考试题库（附答案和详细解析）（0116）.docxVIP

下载本文档

0
0
约2.61千字
约 4页
2026-02-09 发布于上海
举报

2026年数据建模工程师考试题库（附答案和详细解析）（0116）.docx

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在类别不平衡的分类任务中，以下哪个指标最能综合反映模型对少数类的识别能力？

A.准确率（Accuracy）

B.F1-score

C.精确率（Precision）

D.召回率（Recall）

答案：B

解析：准确率在类别不平衡时会因多数类主导而失效（如99%负样本时，全猜负样本准确率99%但无意义）；精确率仅关注正预测中的真实正例比例，召回率仅关注真实正例中被正确预测的比例，均无法综合评估；F1-score是精确率和召回率的调和平均，能平衡两者，更适合不平衡数据场景。

以下哪种方法不属于处理过拟合的常用手段？

A.增加训练数据量

B.降低模型复杂度（如减少神经网络层数）

C.引入L2正则化

D.提高学习率

答案：D

解析：过拟合的本质是模型对训练数据的噪声过度学习。增加数据量可提升泛化能力（A正确）；降低复杂度可减少模型对噪声的拟合能力（B正确）；L2正则化通过惩罚大权重参数抑制过拟合（C正确）；提高学习率会导致参数更新步长过大，可能跳过最优解，与过拟合无关（D错误）。

逻辑回归（LogisticRegression）模型的核心假设是？

A.特征之间存在线性关系

B.因变量服从正态分布

C.对数几率（Log-odds）与特征呈线性关系

D.误差项服从独立同分布

答案：C

解析：逻辑回归通过sigmoid函数将线性组合映射到概率空间，其数学形式为ln(

以下哪项属于特征工程中的“特征构造”？

A.对年龄字段进行分箱（如0-18,19-30等）

B.计算用户“月收入/月支出”作为新特征

C.用PCA降维减少特征数量

D.去除方差接近0的低方差特征

答案：B

解析：特征构造是通过现有特征组合生成新特征（如比率、差值等）（B正确）；分箱属于特征转换（A错误）；PCA是特征提取（C错误）；低方差特征去除是特征选择（D错误）。

在K折交叉验证中，若K=10，以下描述正确的是？

A.每次用1份数据训练，9份验证

B.最终模型性能取10次验证结果的平均值

C.适用于小样本场景以充分利用数据

D.所有数据仅被验证1次

答案：C

解析：K折交叉验证将数据分为K份，每次用K-1份训练、1份验证（A错误）；最终性能是K次验证的平均（B正确但不完整）；小样本时K折可减少数据浪费（C正确）；每份数据恰好被验证1次（D正确）。但本题为单选题，C是核心优势（小样本适用），其他选项表述不准确（如B中“最终模型”通常需重新用全量数据训练，验证结果仅用于评估）。

（注：受篇幅限制，仅展示前5题，实际应完整10题，以下同理。）

二、多项选择题（共10题，每题2分，共20分）

以下属于数据预处理阶段的关键步骤有？（至少2个正确选项）

A.缺失值填充（如用均值填补）

B.异常值检测（如Z-score法）

C.超参数调优（如网格搜索）

D.类别特征编码（如独热编码）

答案：ABD

解析：数据预处理是建模前对原始数据的清洗与转换，包括缺失值处理（A）、异常值检测（B）、特征编码（D）；超参数调优属于模型训练阶段（C错误）。

随机森林（RandomForest）的关键特性包括？

A.基于Bagging集成方法

B.每棵树使用相同的特征子集

C.支持特征重要性计算

D.对缺失值不敏感

答案：ACD

解析：随机森林是Bagging的典型实现（A正确）；每棵树随机选择特征子集（B错误）；通过特征分割时的信息增益下降可计算重要性（C正确）；基于树的结构对缺失值有天然鲁棒性（D正确）。

三、判断题（共10题，每题1分，共10分）

梯度下降法中，批量梯度下降（BatchGD）一定比随机梯度下降（SGD）收敛更快。（）

答案：错误

解析：批量梯度下降使用全部样本计算梯度，方向更准确但计算耗时；SGD用单个样本更新，迭代速度快但波动大。收敛速度受学习率、数据分布等影响，无法绝对比较。

混淆矩阵中的“真阳性（TP）”是指模型预测为正类且实际为正类的样本。（）

答案：正确

解析：混淆矩阵定义：TP（TruePositive）=预测正类且实际正类，符合定义。

四、简答题（共5题，每题6分，共30分）

简述数据建模流程的主要步骤。

答案：

第一，需求分析：明确业务目标（如分类/回归）、数据范围与质量要求；

第二，数据采集与清洗：获取原始数据，处理缺失值、异常值、重复值；

第三，特征工程：进行特征提取、构造、选择与转换（如标准化、编码）；

第四，模型选择与训练：根据任务类型选择算法（如分类用逻辑回归，回归用线性回归），划分训练集/验证集；

第五，模型评估与调优：通过指标（如准确率、RMSE）评估性能，调整超参数或更换模型；

2026年数据建模工程师考试题库（附答案和详细解析）（0116）.docxVIP

2026年数据建模工程师考试题库（附答案和详细解析）（0116）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档