2026年数据建模工程师考试题库(附答案和详细解析)(0102).docxVIP

  • 0
  • 0
  • 约7.91千字
  • 约 11页
  • 2026-01-18 发布于上海
  • 举报

2026年数据建模工程师考试题库(附答案和详细解析)(0102).docx

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在分类模型评估中,F1分数的计算基于以下哪两个指标的调和平均?

A.准确率(Accuracy)和精确率(Precision)

B.精确率(Precision)和召回率(Recall)

C.召回率(Recall)和FPR(假正率)

D.FPR(假正率)和TPR(真正率)

答案:B

解析:F1分数是精确率(Precision)和召回率(Recall)的调和平均,公式为(F1=2)。A选项的准确率是整体正确分类比例,不直接影响F1;C和D涉及的FPR/TPR是ROC曲线的指标,与F1无关。

以下哪种数据预处理方法适用于消除特征间量纲差异,但不会改变数据分布形态?

A.归一化(Min-MaxScaling)

B.标准化(Z-ScoreNormalization)

C.对数变换(LogTransformation)

D.分箱(Binning)

答案:B

解析:标准化通过(z=)将数据转换为均值为0、标准差为1的分布,仅调整量纲,不改变原分布形态;归一化会将数据压缩到[0,1]区间,可能改变分布范围;对数变换用于处理偏态分布,会改变形态;分箱是离散化操作,与量纲无关。

当模型在训练集上准确率为95%,测试集上准确率为60%时,最可能的问题是?

A.欠拟合(Underfitting)

B.过拟合(Overfitting)

C.数据不平衡(ClassImbalance)

D.特征缺失(FeatureMissing)

答案:B

解析:过拟合的典型表现是模型在训练集上表现优异,但在未见过的测试集上泛化能力差;欠拟合会导致训练集和测试集表现都差;数据不平衡会导致模型偏向多数类,但不会出现训练-测试性能大幅差异;特征缺失可能影响整体性能,但不会特指训练-测试差异。

决策树算法中,ID3算法选择分裂特征的依据是?

A.信息增益(InformationGain)

B.信息增益率(GainRatio)

C.基尼系数(GiniIndex)

D.均方误差(MSE)

答案:A

解析:ID3算法基于信息增益选择最优分裂特征;C4.5算法使用信息增益率解决ID3对取值多的特征的偏好问题;CART算法分类任务用基尼系数,回归任务用均方误差。

以下哪项属于特征选择(FeatureSelection)而非特征提取(FeatureExtraction)?

A.主成分分析(PCA)降维

B.计算特征的IV值(信息价值)并筛选

C.用嵌入法(L1正则化)自动筛选特征

D.对类别特征进行独热编码(One-HotEncoding)

答案:B

解析:特征选择是从原有特征中筛选重要特征(如基于IV值筛选);特征提取是通过变换生成新特征(如PCA);C选项的嵌入法本质是模型训练过程中自动选择特征,属于特征选择;D是特征变换,属于特征工程但非选择/提取。

时间序列建模中,ARIMA模型的“MA”代表?

A.自回归(AutoRegressive)

B.移动平均(MovingAverage)

C.差分(Differencing)

D.整合(Integrated)

答案:B

解析:ARIMA的结构为AR(p)(自回归)+I(d)(差分整合)+MA(q)(移动平均),其中MA(q)表示模型误差项的移动平均部分。

以下哪种集成学习方法属于Boosting类?

A.随机森林(RandomForest)

B.GBDT(梯度提升决策树)

C.极端随机树(ExtraTrees)

D.隔离森林(IsolationForest)

答案:B

解析:Boosting方法通过串行训练弱分类器,逐步修正前序模型的错误(如GBDT);Bagging方法(随机森林、极端随机树)通过并行训练多个基模型并投票;隔离森林是无监督异常检测算法,不属于集成学习框架。

以下哪项操作最可能导致数据泄露(DataLeakage)?

A.在训练集上进行标准化后,用相同参数标准化测试集

B.在特征工程中使用测试集的统计量(如均值)处理训练集

C.对类别不平衡数据进行SMOTE过采样时仅作用于训练集

D.用交叉验证划分训练集和验证集

答案:B

解析:数据泄露指测试集信息在训练阶段被不当使用。B选项中用测试集统计量处理训练集,导致训练数据包含测试集信息,模型泛化能力被高估;A是正确操作(使用训练集参数标准化测试集);C和D均为合理步骤。

模型部署到生产环境前,关键的验证步骤不包括?

A.延迟测试(LatencyTest)

B.压力测试(StressTest)

C.概念漂移检测(ConceptDriftDetection)

D.特征重要性分

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档