2025年数据建模工程师考试题库(附答案和详细解析)(1230).docxVIP

  • 0
  • 0
  • 约7.6千字
  • 约 10页
  • 2026-03-14 发布于上海
  • 举报

2025年数据建模工程师考试题库(附答案和详细解析)(1230).docx

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在分类任务中,同时考虑精确率(Precision)和召回率(Recall)的综合指标是?

A.准确率(Accuracy)

B.F1-score

C.均方误差(MSE)

D.R2分数

答案:B

解析:F1-score是精确率和召回率的调和平均值(公式:2(PR)/(P+R)),能平衡两者的表现;准确率是整体正确分类的比例,未区分正负类;均方误差和R2分数用于回归任务,故本题选B。

以下哪种方法最适合处理高维稀疏数据的特征缩放?

A.归一化(Min-MaxScaling)

B.标准化(Z-Score)

C.对数变换

D.无需缩放

答案:D

解析:高维稀疏数据(如文本TF-IDF特征)中大部分特征值为0,缩放会破坏稀疏性并引入噪声,通常直接使用原始值;归一化和标准化适用于密集数值特征,对数变换用于处理偏态分布,故本题选D。

随机森林(RandomForest)的核心思想是?

A.提升(Boosting)

B.装袋(Bagging)

C.强化学习

D.梯度下降

答案:B

解析:随机森林通过Bootstrap采样(有放回抽样)生成多个决策树,最终结果由多数投票决定,属于Bagging(自助聚合)方法;Boosting是串行优化弱分类器(如XGBoost),强化学习和梯度下降与集成学习无关,故本题选B。

以下哪项是过拟合(Overfitting)的典型表现?

A.训练集和验证集准确率都很低

B.训练集准确率高,验证集准确率低

C.训练集和验证集准确率接近

D.训练集准确率低,验证集准确率高

答案:B

解析:过拟合时模型过度学习训练数据的噪声和细节,导致对新数据(验证集)泛化能力差,表现为训练集性能好但验证集性能差;A是欠拟合,C是泛化能力好,D不符合常规规律,故本题选B。

在特征工程中,“将连续变量年龄划分为青年/中年/老年”属于?

A.特征分箱(Binning)

B.特征交叉(FeatureCrossing)

C.特征选择(FeatureSelection)

D.特征编码(FeatureEncoding)

答案:A

解析:特征分箱是将连续变量离散化为区间,减少噪声影响;特征交叉是组合多个特征(如年龄×收入),特征选择是筛选重要特征,特征编码是处理类别变量(如独热编码),故本题选A。

逻辑回归(LogisticRegression)的损失函数是?

A.均方误差(MSE)

B.交叉熵损失(Cross-Entropy)

hingeloss

D.绝对误差(MAE)

答案:B

解析:逻辑回归用于二分类,目标是最大化似然函数,等价于最小化交叉熵损失(公式:-ylog(p)-(1-y)log(1-p));MSE和MAE用于回归,hingeloss是SVM的损失函数,故本题选B。

以下哪种方法不能缓解类别不平衡问题?

A.过采样(Oversampling)少数类

B.欠采样(Undersampling)多数类

C.调整类别权重(ClassWeight)

D.增加正则化强度

答案:D

解析:类别不平衡时,模型易偏向多数类,过采样、欠采样和调整类别权重(如在损失函数中为少数类分配更高权重)是常用方法;正则化用于防止过拟合,与类别平衡无关,故本题选D。

在K折交叉验证(K-FoldCV)中,K的常见取值是?

A.1

B.5或10

C.100

D.等于样本数

答案:B

解析:K=5或10是经验值,既能保证验证集足够大(避免方差过高),又能控制计算成本;K=1是简单验证,K=样本数是留一法(计算成本高),K=100无实际意义,故本题选B。

以下哪种模型属于生成式模型?

A.逻辑回归

B.支持向量机(SVM)

C.朴素贝叶斯(NaiveBayes)

D.随机森林

答案:C

解析:生成式模型学习联合概率P(X,Y)(如朴素贝叶斯假设特征独立,计算P(Y|X)=P(X|Y)P(Y)/P(X));判别式模型直接学习P(Y|X)(如逻辑回归、SVM、随机森林),故本题选C。

模型部署时,“将训练好的模型转换为ONNX格式”主要目的是?

A.提高模型准确率

B.增强模型可解释性

C.实现跨框架推理(如TensorFlow→PyTorch)

D.减少训练时间

答案:C

解析:ONNX(开放神经网络交换格式)是模型序列化的标准,支持不同框架(如TensorFlow、PyTorch)间的模型迁移,不影响准确率或训练时间,可解释性需额外方法(如SHAP),故本题选C。

二、多项选择题(共10题,每题2分,共20分)

数据预处理中,属于特征工程的步骤包括?

A.缺失值填充(如用均值填充)

B.类别变量独热编码(

文档评论(0)

1亿VIP精品文档

相关文档