2026年数据建模工程师考试题库（附答案和详细解析）（0112）.docxVIP

下载本文档

0
0
约8.12千字
约 11页
2026-02-10 发布于上海
举报

2026年数据建模工程师考试题库（附答案和详细解析）（0112）.docx

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在分类任务中，若真实标签为正类的样本被预测为负类，对应的混淆矩阵指标是？

A.真阳性（TP）

B.假阳性（FP）

C.真阴性（TN）

D.假阴性（FN）

答案：D

解析：混淆矩阵中，TP（真阳性）是真实正类被正确预测为正类，FP（假阳性）是真实负类被错误预测为正类，TN（真阴性）是真实负类被正确预测为负类，FN（假阴性）是真实正类被错误预测为负类。因此本题选D。

以下哪种特征编码方法适用于高基数类别特征（如用户ID）？

A.独热编码（One-HotEncoding）

B.标签编码（LabelEncoding）

C.目标编码（TargetEncoding）

D.二进制编码（BinaryEncoding）

答案：C

解析：独热编码对高基数特征会产生维度爆炸问题；标签编码无法捕捉类别与目标的关联；二进制编码通过将类别转换为二进制位减少维度，但目标编码（利用目标变量的统计量编码）更适合高基数特征，能有效保留类别与目标的关联信息，因此选C。

以下哪项是解决模型过拟合的常用方法？

A.增加模型复杂度

B.减少训练数据量

C.添加L2正则化

D.降低学习率

答案：C

解析：过拟合是模型对训练数据过度拟合，泛化能力差。增加模型复杂度（A）、减少训练数据（B）会加剧过拟合；降低学习率（D）主要影响优化速度而非过拟合；L2正则化通过惩罚大权重参数，限制模型复杂度，是解决过拟合的常用方法，因此选C。

评估回归模型时，以下哪个指标对异常值最敏感？

A.均方误差（MSE）

B.平均绝对误差（MAE）

C.R2决定系数

D.中位数绝对误差（MedAE）

答案：A

解析：MSE计算误差的平方，异常值的平方会显著放大误差值；MAE和MedAE使用绝对误差，对异常值的敏感度较低；R2反映模型解释方差的比例，受异常值影响较小。因此选A。

k折交叉验证的主要目的是？

A.加速模型训练

B.减少计算资源消耗

C.评估模型泛化能力

D.选择最优超参数

答案：C

解析：交叉验证通过将数据划分为k个子集，轮流作为验证集，最终取平均性能，能更可靠地评估模型在未见过数据上的表现（泛化能力）。加速训练（A）和减少资源（B）是并行计算或简化模型的目的；选择超参数（D）是网格搜索等方法的目的。因此选C。

以下属于集成学习中“提升（Boosting）”方法的是？

A.随机森林（RandomForest）

B.梯度提升树（GBDT）

C.极端随机树（ExtraTrees）

D.隔离森林（IsolationForest）

答案：B

解析：随机森林和极端随机树是基于“Bagging”的集成方法（并行训练多个弱模型）；隔离森林用于异常检测；梯度提升树是“Boosting”方法（串行训练，每轮修正前一轮的错误），因此选B。

特征选择的主要目的是？

A.增加模型复杂度

B.减少冗余特征，降低计算成本

C.提高特征的可解释性

D.B和C

答案：D

解析：特征选择通过去除冗余或无关特征，既降低模型计算成本（减少维度），又保留关键特征以提高可解释性。增加复杂度（A）是特征构造的可能结果，非选择目的。因此选D。

在线学习（OnlineLearning）的核心特点是？

A.一次性处理所有数据

B.模型可增量更新

C.要求数据独立同分布

D.B和C

答案：D

解析：在线学习逐批或逐样本更新模型（增量更新），但要求数据满足独立同分布假设（否则模型会漂移）。一次性处理数据（A）是批量学习的特点。因此选D。

模型部署时，以下哪项是关键步骤？

A.模型压缩（如剪枝、量化）

B.数据预处理代码重写

C.选择开发环境（如JupyterNotebook）

D.A和B

答案：D

解析：模型部署需考虑推理效率（压缩模型）和生产环境与训练环境的一致性（重写预处理代码以避免部署后数据处理不一致）。开发环境（C）是训练阶段的工具，非部署关键。因此选D。

以下哪种场景可能导致数据泄露（DataLeakage）？

A.训练集和测试集使用相同的时间范围

B.对训练集和测试集分别做标准化

C.在特征工程中使用测试集的统计量（如均值）

D.对类别不平衡数据进行过采样

答案：C

解析：数据泄露指测试集信息在训练阶段被模型获取。若特征工程（如标准化）使用测试集的统计量（均值、标准差），会导致训练数据包含测试集信息，模型泛化能力被高估。A是时间序列划分问题，B是正确操作（测试集应使用训练集的统计量），D是解决类别不平衡的合理方法。因此选C。

二、多项选择题（共10题，每题2分，共20分）

数据预处理的主要内容包括（）？

A.缺失值处理

B.异常值检测

C.特征构造

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据建模工程师考试题库（附答案和详细解析）（0112）.docxVIP