2026年数据建模工程师考试题库（附答案和详细解析）（0104）.docxVIP

2026年数据建模工程师考试题库（附答案和详细解析）（0104）.docx

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪种数据预处理方法最适合处理具有复杂非线性关系的缺失值？

A.直接删除缺失值所在行

B.用特征均值填充缺失值

C.用随机森林模型预测缺失值

D.用中位数填充缺失值

答案：C

解析：复杂非线性关系的缺失值需要考虑特征间的关联，随机森林（或其他机器学习模型）能捕捉非线性关系，预测缺失值更准确；A会丢失信息，B/D仅适用于线性或无明显关联的场景。

在分类任务中，若目标变量是“是否患癌症”（1为患病，0为未患病），最不适合的评估指标是？

A.准确率（Accuracy）

B.F1分数

C.AUC-ROC

D.召回率（Recall）

答案：A

解析：当数据不平衡（如患病样本极少）时，准确率会因多数类（0类）占比高而虚高（例如99%未患病时，全预测0的准确率为99%，但无实际价值）；B/C/D关注正类预测效果，更适合不平衡场景。

以下哪项是L1正则化的典型特征？

A.使模型权重趋向于较小的非零值

B.产生稀疏的权重矩阵（大量权重为0）

C.主要用于防止欠拟合

D.等价于在目标函数中增加权重平方和的惩罚项

答案：B

解析：L1正则化通过增加权重绝对值的惩罚项，促使模型剔除无关特征（权重变为0），产生稀疏解；A是L2正则化的特征（权重衰减但非零），C正则化用于防止过拟合，D是L2的数学形式。