2026年数据建模工程师考试题库(附答案和详细解析)(0109).docxVIP

  • 0
  • 0
  • 约8.12千字
  • 约 11页
  • 2026-02-07 发布于上海
  • 举报

2026年数据建模工程师考试题库(附答案和详细解析)(0109).docx

数据建模工程师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

以下哪个指标最适合评估不均衡分类数据的模型性能?

A.准确率(Accuracy)

B.F1分数(F1-score)

C.均方误差(MSE)

D.调整R方(AdjustedR2)

答案:B

解析:不均衡数据中,准确率会因多数类主导而失真(如99%负样本时,全预测负样本准确率99%但无意义);F1分数综合了精确率和召回率,更关注少数类表现;MSE用于回归任务,AdjustedR2用于线性回归模型拟合度评估。因此选B。

若模型在训练集上表现很好(准确率95%),但测试集上表现差(准确率60%),最可能的原因是?

A.欠拟合(Underfitting)

B.过拟合(Overfitting)

C.数据泄露(DataLeakage)

D.特征缺失(FeatureMissing)

答案:B

解析:过拟合指模型过度学习训练集的噪声和细节,导致泛化能力差,训练集与测试集性能差距大;欠拟合表现为训练集和测试集性能均差;数据泄露是测试集信息提前进入训练过程,通常表现为异常高的测试集性能;特征缺失可能导致模型无法捕捉关键模式,但不会仅导致测试集性能骤降。故选B。

以下哪种算法属于生成式模型?

A.逻辑回归(LogisticRegression)

B.支持向量机(SVM)

C.朴素贝叶斯(NaiveBayes)

D.随机森林(RandomForest)

答案:C

解析:生成式模型通过学习数据的联合概率分布P(X,Y)进行分类(如朴素贝叶斯假设特征独立,计算P(Y|X)=P(X|Y)P(Y)/P(X));判别式模型直接学习决策边界P(Y|X)(如逻辑回归、SVM、随机森林)。故选C。

对类别特征“颜色”(红、蓝、绿)进行编码时,最合理的方法是?

A.标签编码(LabelEncoding)

B.独热编码(One-HotEncoding)

C.目标编码(TargetEncoding)

D.标准化(Standardization)

答案:B

解析:类别特征无顺序关系(颜色是名义变量),标签编码会错误引入顺序(如红=1、蓝=2、绿=3);独热编码将每个类别转为二值向量(3类生成3列0-1变量),避免顺序问题;目标编码依赖目标变量,可能导致过拟合;标准化用于数值特征。故选B。

以下哪项不是集成学习(EnsembleLearning)的典型方法?

A.装袋(Bagging)

B.提升(Boosting)

C.堆叠(Stacking)

D.聚类(Clustering)

答案:D

解析:集成学习通过组合多个基模型提升性能,包括Bagging(如随机森林)、Boosting(如XGBoost)、Stacking(元模型融合);聚类是无监督学习任务,目标是分组数据,不属于集成方法。故选D。

在时间序列预测中,若数据存在季节性(如季度性波动),最关键的预处理步骤是?

A.差分处理(Differencing)

B.季节性分解(SeasonalDecomposition)

C.标准化(Standardization)

D.主成分分析(PCA)

答案:B

解析:季节性分解可分离趋势项、季节项和残差项,帮助模型捕捉周期性模式;差分用于消除趋势(如一阶差分消除线性趋势),但无法直接处理季节性;标准化仅调整量纲;PCA用于降维,不针对季节性。故选B。

以下哪个指标用于衡量回归模型的预测误差?

A.ROC曲线(ROCCurve)

B.混淆矩阵(ConfusionMatrix)

C.平均绝对误差(MAE)

D.精确率(Precision)

答案:C

解析:MAE(MeanAbsoluteError)是回归任务的常用误差指标,计算预测值与真实值的绝对差平均;ROC曲线、混淆矩阵、精确率均用于分类任务。故选C。

当使用K近邻(KNN)算法时,若K值过大,最可能导致?

A.模型复杂度增加

B.对噪声更敏感

C.决策边界更平滑

D.过拟合风险提高

答案:C

解析:KNN中K值增大时,模型会考虑更多邻居,决策边界由局部数据主导转为全局平均,因此更平滑;K值过大会降低模型复杂度(欠拟合),对噪声更不敏感(因噪声影响被平均),过拟合风险降低。故选C。

以下哪项是特征选择(FeatureSelection)的主要目的?

A.增加模型可解释性

B.减少计算成本

C.避免维度灾难

D.以上都是

答案:D

解析:特征选择通过剔除冗余/无关特征,可提升模型可解释性(保留关键特征)、减少训练和预测的计算成本(低维数据)、缓解维度灾难(高维空间中数据稀疏性问题)。故选D。

在神经网络中,ReLU激活函数的主要优点是?

A.避免

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档