2025年数据建模工程师考试题库（附答案和详细解析）（1230）.docxVIP

下载本文档

0
0
约7.6千字
约 10页
2026-03-14 发布于上海
举报

2025年数据建模工程师考试题库（附答案和详细解析）（1230）.docx

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在分类任务中，同时考虑精确率（Precision）和召回率（Recall）的综合指标是？

A.准确率（Accuracy）

B.F1-score

C.均方误差（MSE）

D.R2分数

答案：B

解析：F1-score是精确率和召回率的调和平均值（公式：2(PR)/(P+R)），能平衡两者的表现；准确率是整体正确分类的比例，未区分正负类；均方误差和R2分数用于回归任务，故本题选B。

以下哪种方法最适合处理高维稀疏数据的特征缩放？

A.归一化（Min-MaxScaling）

B.标准化（Z-Score）

C.对数变换

D.无需缩放

答案：D

解析：高维稀疏数据（如文本TF-IDF特征）中大部分特征值为0，缩放会破坏稀疏性并引入噪声，通常直接使用原始值；归一化和标准化适用于密集数值特征，对数变换用于处理偏态分布，故本题选D。

随机森林（RandomForest）的核心思想是？

A.提升（Boosting）

B.装袋（Bagging）

C.强化学习

D.梯度下降

答案：B

解析：随机森林通过Bootstrap采样（有放回抽样）生成多个决策树，最终结果由多数投票决定，属于Bagging（自助聚合）方法；Boosting是串行优化弱分类器（如XGBoost），强化学习和梯度下降与集成学习无关，故本题选B。

以下哪项是过拟合（Overfitting）的典型表现？

A.训练集和验证集准确率都很低

B.训练集准确率高，验证集准确率低

C.训练集和验证集准确率接近

D.训练集准确率低，验证集准确率高

答案：B

解析：过拟合时模型过度学习训练数据的噪声和细节，导致对新数据（验证集）泛化能力差，表现为训练集性能好但验证集性能差；A是欠拟合，C是泛化能力好，D不符合常规规律，故本题选B。

在特征工程中，“将连续变量年龄划分为青年/中年/老年”属于？

A.特征分箱（Binning）

B.特征交叉（FeatureCrossing）

C.特征选择（FeatureSelection）

D.特征编码（FeatureEncoding）

答案：A

解析：特征分箱是将连续变量离散化为区间，减少噪声影响；特征交叉是组合多个特征（如年龄×收入），特征选择是筛选重要特征，特征编码是处理类别变量（如独热编码），故本题选A。

逻辑回归（LogisticRegression）的损失函数是？

A.均方误差（MSE）

B.交叉熵损失（Cross-Entropy）

hingeloss

D.绝对误差（MAE）

答案：B

解析：逻辑回归用于二分类，目标是最大化似然函数，等价于最小化交叉熵损失（公式：-ylog(p)-(1-y)log(1-p)）；MSE和MAE用于回归，hingeloss是SVM的损失函数，故本题选B。

以下哪种方法不能缓解类别不平衡问题？

A.过采样（Oversampling）少数类

B.欠采样（Undersampling）多数类

C.调整类别权重（ClassWeight）

D.增加正则化强度

答案：D

解析：类别不平衡时，模型易偏向多数类，过采样、欠采样和调整类别权重（如在损失函数中为少数类分配更高权重）是常用方法；正则化用于防止过拟合，与类别平衡无关，故本题选D。

在K折交叉验证（K-FoldCV）中，K的常见取值是？

A.1

B.5或10

C.100

D.等于样本数

答案：B

解析：K=5或10是经验值，既能保证验证集足够大（避免方差过高），又能控制计算成本；K=1是简单验证，K=样本数是留一法（计算成本高），K=100无实际意义，故本题选B。

以下哪种模型属于生成式模型？

A.逻辑回归

B.支持向量机（SVM）

C.朴素贝叶斯（NaiveBayes）

D.随机森林

答案：C

解析：生成式模型学习联合概率P(X,Y)（如朴素贝叶斯假设特征独立，计算P(Y|X)=P(X|Y)P(Y)/P(X)）；判别式模型直接学习P(Y|X)（如逻辑回归、SVM、随机森林），故本题选C。

模型部署时，“将训练好的模型转换为ONNX格式”主要目的是？

A.提高模型准确率

B.增强模型可解释性

C.实现跨框架推理（如TensorFlow→PyTorch）

D.减少训练时间

答案：C

解析：ONNX（开放神经网络交换格式）是模型序列化的标准，支持不同框架（如TensorFlow、PyTorch）间的模型迁移，不影响准确率或训练时间，可解释性需额外方法（如SHAP），故本题选C。

二、多项选择题（共10题，每题2分，共20分）

数据预处理中，属于特征工程的步骤包括？

A.缺失值填充（如用均值填充）

B.类别变量独热编码（

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年数据建模工程师考试题库（附答案和详细解析）（1230）.docxVIP