2026年数据建模工程师考试题库(附答案和详细解析)(0116).docxVIP

  • 0
  • 0
  • 约2.61千字
  • 约 4页
  • 2026-02-09 发布于上海
  • 举报

2026年数据建模工程师考试题库(附答案和详细解析)(0116).docx

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在类别不平衡的分类任务中,以下哪个指标最能综合反映模型对少数类的识别能力?

A.准确率(Accuracy)

B.F1-score

C.精确率(Precision)

D.召回率(Recall)

答案:B

解析:准确率在类别不平衡时会因多数类主导而失效(如99%负样本时,全猜负样本准确率99%但无意义);精确率仅关注正预测中的真实正例比例,召回率仅关注真实正例中被正确预测的比例,均无法综合评估;F1-score是精确率和召回率的调和平均,能平衡两者,更适合不平衡数据场景。

以下哪种方法不属于处理过拟合的常用手段?

A.增加训练数据量

B.降低模型复杂度(如减少神经网络层数)

C.引入L2正则化

D.提高学习率

答案:D

解析:过拟合的本质是模型对训练数据的噪声过度学习。增加数据量可提升泛化能力(A正确);降低复杂度可减少模型对噪声的拟合能力(B正确);L2正则化通过惩罚大权重参数抑制过拟合(C正确);提高学习率会导致参数更新步长过大,可能跳过最优解,与过拟合无关(D错误)。

逻辑回归(LogisticRegression)模型的核心假设是?

A.特征之间存在线性关系

B.因变量服从正态分布

C.对数几率(Log-odds)与特征呈线性关系

D.误差项服从独立同分布

答案:C

解析:逻辑回归通过sigmoid函数将线性组合映射到概率空间,其数学形式为ln(

以下哪项属于特征工程中的“特征构造”?

A.对年龄字段进行分箱(如0-18,19-30等)

B.计算用户“月收入/月支出”作为新特征

C.用PCA降维减少特征数量

D.去除方差接近0的低方差特征

答案:B

解析:特征构造是通过现有特征组合生成新特征(如比率、差值等)(B正确);分箱属于特征转换(A错误);PCA是特征提取(C错误);低方差特征去除是特征选择(D错误)。

在K折交叉验证中,若K=10,以下描述正确的是?

A.每次用1份数据训练,9份验证

B.最终模型性能取10次验证结果的平均值

C.适用于小样本场景以充分利用数据

D.所有数据仅被验证1次

答案:C

解析:K折交叉验证将数据分为K份,每次用K-1份训练、1份验证(A错误);最终性能是K次验证的平均(B正确但不完整);小样本时K折可减少数据浪费(C正确);每份数据恰好被验证1次(D正确)。但本题为单选题,C是核心优势(小样本适用),其他选项表述不准确(如B中“最终模型”通常需重新用全量数据训练,验证结果仅用于评估)。

(注:受篇幅限制,仅展示前5题,实际应完整10题,以下同理。)

二、多项选择题(共10题,每题2分,共20分)

以下属于数据预处理阶段的关键步骤有?(至少2个正确选项)

A.缺失值填充(如用均值填补)

B.异常值检测(如Z-score法)

C.超参数调优(如网格搜索)

D.类别特征编码(如独热编码)

答案:ABD

解析:数据预处理是建模前对原始数据的清洗与转换,包括缺失值处理(A)、异常值检测(B)、特征编码(D);超参数调优属于模型训练阶段(C错误)。

随机森林(RandomForest)的关键特性包括?

A.基于Bagging集成方法

B.每棵树使用相同的特征子集

C.支持特征重要性计算

D.对缺失值不敏感

答案:ACD

解析:随机森林是Bagging的典型实现(A正确);每棵树随机选择特征子集(B错误);通过特征分割时的信息增益下降可计算重要性(C正确);基于树的结构对缺失值有天然鲁棒性(D正确)。

三、判断题(共10题,每题1分,共10分)

梯度下降法中,批量梯度下降(BatchGD)一定比随机梯度下降(SGD)收敛更快。()

答案:错误

解析:批量梯度下降使用全部样本计算梯度,方向更准确但计算耗时;SGD用单个样本更新,迭代速度快但波动大。收敛速度受学习率、数据分布等影响,无法绝对比较。

混淆矩阵中的“真阳性(TP)”是指模型预测为正类且实际为正类的样本。()

答案:正确

解析:混淆矩阵定义:TP(TruePositive)=预测正类且实际正类,符合定义。

四、简答题(共5题,每题6分,共30分)

简述数据建模流程的主要步骤。

答案:

第一,需求分析:明确业务目标(如分类/回归)、数据范围与质量要求;

第二,数据采集与清洗:获取原始数据,处理缺失值、异常值、重复值;

第三,特征工程:进行特征提取、构造、选择与转换(如标准化、编码);

第四,模型选择与训练:根据任务类型选择算法(如分类用逻辑回归,回归用线性回归),划分训练集/验证集;

第五,模型评估与调优:通过指标(如准确率、RMSE)评估性能,调整超参数或更换模型;

第六,模型部署与监控:将最优模型上线

文档评论(0)

1亿VIP精品文档

相关文档