2026年数据建模工程师考试题库（附答案和详细解析）（0118）.docxVIP

2026年数据建模工程师考试题库（附答案和详细解析）（0118）.docx

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在数据预处理阶段，针对高维稀疏的类别型特征（如用户职业），最适合的处理方法是？

A.直接删除该特征

B.均值填补缺失值

C.独热编码（One-HotEncoding）

D.标准化（Z-Score）

答案：C

解析：类别型特征需通过编码转换为数值型，独热编码能有效保留类别间的独立性，避免顺序假设（如职业无高低之分）。A错误，直接删除会丢失关键信息；B错误，均值填补适用于数值型缺失值；D错误，标准化适用于连续型特征的量纲统一。

以下哪项是衡量分类模型在正负样本分布不均衡时的最优指标？

A.准确率（Accuracy）

B.F1分数（F1-Score）

C.均方误差（MSE）

D.R2决定系数

答案：B

解析：F1分数是精确率（Precision）和召回率（Recall）的调和平均，能平衡正负样本的分类效果，尤其在数据不均衡时更可靠。A错误，准确率在负样本占比99%时可能因“全判负”虚高；C、D错误，均为回归模型指标。

训练随机森林时，若模型在训练集上准确率95%，测试集上仅60%，最可能的原因是？

A.学习率过高

B.树的数量（n_estimators）太少

C.树的深度（max_depth）过大

D.特征数量不足

答案：C

解析：训练集表现远好于测试集是典型过拟合现象，随机森林过拟合通常因

更多 >