2026年数据建模工程师考试题库（附答案和详细解析）（0109）.docxVIP

下载本文档

0
0
约8.12千字
约 11页
2026-02-07 发布于上海
举报

2026年数据建模工程师考试题库（附答案和详细解析）（0109）.docx

数据建模工程师考试试卷（总分100分）

一、单项选择题（共10题，每题1分，共10分）

以下哪个指标最适合评估不均衡分类数据的模型性能？

A.准确率（Accuracy）

B.F1分数（F1-score）

C.均方误差（MSE）

D.调整R方（AdjustedR2）

答案：B

解析：不均衡数据中，准确率会因多数类主导而失真（如99%负样本时，全预测负样本准确率99%但无意义）；F1分数综合了精确率和召回率，更关注少数类表现；MSE用于回归任务，AdjustedR2用于线性回归模型拟合度评估。因此选B。

若模型在训练集上表现很好（准确率95%），但测试集上表现差（准确率60%），最可能的原因是？

A.欠拟合（Underfitting）

B.过拟合（Overfitting）

C.数据泄露（DataLeakage）

D.特征缺失（FeatureMissing）

答案：B

解析：过拟合指模型过度学习训练集的噪声和细节，导致泛化能力差，训练集与测试集性能差距大；欠拟合表现为训练集和测试集性能均差；数据泄露是测试集信息提前进入训练过程，通常表现为异常高的测试集性能；特征缺失可能导致模型无法捕捉关键模式，但不会仅导致测试集性能骤降。故选B。

以下哪种算法属于生成式模型？

A.逻辑回归（LogisticRegression）

B.支持向量机（SVM）

C.朴素贝叶斯（NaiveBayes）

D.随机森林（RandomForest）

答案：C

解析：生成式模型通过学习数据的联合概率分布P(X,Y)进行分类（如朴素贝叶斯假设特征独立，计算P(Y|X)=P(X|Y)P(Y)/P(X)）；判别式模型直接学习决策边界P(Y|X)（如逻辑回归、SVM、随机森林）。故选C。

对类别特征“颜色”（红、蓝、绿）进行编码时，最合理的方法是？

A.标签编码（LabelEncoding）

B.独热编码（One-HotEncoding）

C.目标编码（TargetEncoding）

D.标准化（Standardization）

答案：B

解析：类别特征无顺序关系（颜色是名义变量），标签编码会错误引入顺序（如红=1、蓝=2、绿=3）；独热编码将每个类别转为二值向量（3类生成3列0-1变量），避免顺序问题；目标编码依赖目标变量，可能导致过拟合；标准化用于数值特征。故选B。

以下哪项不是集成学习（EnsembleLearning）的典型方法？

A.装袋（Bagging）

B.提升（Boosting）

C.堆叠（Stacking）

D.聚类（Clustering）

答案：D

解析：集成学习通过组合多个基模型提升性能，包括Bagging（如随机森林）、Boosting（如XGBoost）、Stacking（元模型融合）；聚类是无监督学习任务，目标是分组数据，不属于集成方法。故选D。

在时间序列预测中，若数据存在季节性（如季度性波动），最关键的预处理步骤是？

A.差分处理（Differencing）

B.季节性分解（SeasonalDecomposition）

C.标准化（Standardization）

D.主成分分析（PCA）

答案：B

解析：季节性分解可分离趋势项、季节项和残差项，帮助模型捕捉周期性模式；差分用于消除趋势（如一阶差分消除线性趋势），但无法直接处理季节性；标准化仅调整量纲；PCA用于降维，不针对季节性。故选B。

以下哪个指标用于衡量回归模型的预测误差？

A.ROC曲线（ROCCurve）

B.混淆矩阵（ConfusionMatrix）

C.平均绝对误差（MAE）

D.精确率（Precision）

答案：C

解析：MAE（MeanAbsoluteError）是回归任务的常用误差指标，计算预测值与真实值的绝对差平均；ROC曲线、混淆矩阵、精确率均用于分类任务。故选C。

当使用K近邻（KNN）算法时，若K值过大，最可能导致？

A.模型复杂度增加

B.对噪声更敏感

C.决策边界更平滑

D.过拟合风险提高

答案：C

解析：KNN中K值增大时，模型会考虑更多邻居，决策边界由局部数据主导转为全局平均，因此更平滑；K值过大会降低模型复杂度（欠拟合），对噪声更不敏感（因噪声影响被平均），过拟合风险降低。故选C。

以下哪项是特征选择（FeatureSelection）的主要目的？

A.增加模型可解释性

B.减少计算成本

C.避免维度灾难

D.以上都是

答案：D

解析：特征选择通过剔除冗余/无关特征，可提升模型可解释性（保留关键特征）、减少训练和预测的计算成本（低维数据）、缓解维度灾难（高维空间中数据稀疏性问题）。故选D。

在神经网络中，ReLU激活函数的主要优点是？

A.避免

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据建模工程师考试题库（附答案和详细解析）（0109）.docxVIP