2025年数据建模工程师考试题库(附答案和详细解析)(1002).docxVIP

2025年数据建模工程师考试题库(附答案和详细解析)(1002).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据建模工程师专业考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种方法最适合处理高维分类数据中的类别型特征?

A.标准化(Z-score)

B.独热编码(One-HotEncoding)

C.对数变换(LogTransformation)

D.主成分分析(PCA)

答案:B

解析:类别型特征(如“性别”“职业”)需要将离散值转换为数值向量,独热编码通过二进制向量表示类别,避免了有序假设,是最适合的方法。A项标准化适用于连续型特征;C项对数变换用于处理偏态分布的连续特征;D项PCA是降维方法,不直接处理类别型特征。

在分类任务中,若数据存在严重类别不平衡(正类占比1%),最不适合的评估指标是?

A.准确率(Accuracy)

B.F1分数(F1-Score)

C.ROC-AUC

D.召回率(Recall)

答案:A

解析:准确率在类别不平衡时会失效(如全预测负类准确率可达99%)。B项F1分数综合精确率和召回率,适用于不平衡数据;C项ROC-AUC衡量模型区分能力,不受类别比例影响;D项召回率关注正类覆盖,是关键指标。

以下哪项是过拟合的典型表现?

A.训练集准确率低,验证集准确率低

B.训练集准确率高,验证集准确率低

C.训练集准确率低,验证集准确率高

D.训练集与验证集准确率接近

答案:B

解析:过拟合指模型过度学习训练数据的噪声,导致对新数据泛化能力差,表现为训练集效果好但验证集效果差。A项是欠拟合;C项不符合实际;D项是泛化能力好的表现。

线性回归模型中,若残差(实际值-预测值)呈现明显的异方差性(方差随自变量增大而增大),应优先采取以下哪种措施?

A.增加多项式特征

B.对因变量进行对数变换

C.引入L2正则化

D.减少训练数据量

答案:B

解析:异方差性(残差方差不恒定)通常通过对因变量进行幂变换(如对数变换)消除,使方差稳定。A项会加剧过拟合;C项正则化用于解决多重共线性或过拟合;D项会降低模型稳定性。

在随机森林(RandomForest)中,“随机”主要体现在?

A.随机选择样本子集(Bootstrap)和随机选择特征子集

B.随机初始化树的根节点

C.随机设置树的最大深度

D.随机选择损失函数

答案:A

解析:随机森林的“随机”体现在两方面:样本层面通过Bootstrap抽样生成子数据集;特征层面每次分裂时随机选择部分特征,降低模型方差。其他选项均不符合随机森林的核心机制。

以下哪种特征工程方法用于捕捉特征间的交互作用?

A.标准化(Standardization)

B.特征交叉(FeatureCross)

C.分箱(Binning)

D.缺失值填充(Imputation)

答案:B

解析:特征交叉通过组合两个或多个特征(如“年龄×收入”)生成新特征,用于捕捉原始特征间的交互效应。A项是数据缩放;C项将连续特征离散化;D项处理缺失值。

评估回归模型时,均方误差(MSE)与平均绝对误差(MAE)的主要区别是?

A.MSE对异常值更敏感

B.MAE计算更复杂

C.MSE衡量绝对误差,MAE衡量平方误差

D.MAE适用于分类任务

答案:A

解析:MSE是误差的平方均值,异常值的平方会显著放大其影响;MAE是绝对误差均值,对异常值更鲁棒。B项MAE计算更简单;C项描述相反;D项MAE是回归指标。

以下哪项不属于数据质量的核心维度?

A.完整性(Completeness)

B.一致性(Consistency)

C.可解释性(Interpretability)

D.准确性(Accuracy)

答案:C

解析:数据质量的核心维度包括完整性(无缺失)、一致性(格式统一)、准确性(与真实值匹配)、时效性等。可解释性是模型的特性,而非数据质量维度。

在K折交叉验证(K-FoldCV)中,K的选择通常建议?

A.K=1(留一法)

B.K=样本量的平方根

C.K=5或10

D.K越大越好

答案:C

解析:K=5或10是常用选择,既能平衡计算效率与评估稳定性。A项留一法计算成本高;B项无理论依据;D项K过大(如接近样本量)会导致各折数据高度相似,评估偏差增大。

梯度提升树(GBDT)的核心思想是?

A.并行训练多棵树,取平均预测结果

B.串行训练树,每棵树拟合前序模型的残差

C.随机选择特征子集构建树

D.通过正则化减少模型复杂度

答案:B

解析:GBDT是提升(Boosting)算法,通过迭代训练基模型(树),每棵树拟合当前模型的负梯度(残差),逐步降低整体误差。A项是随机森林的思想;C项是随机森林的特征选择方式;D项是正则化的作用。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下哪些方法可用于检

文档评论(0)

nastasia + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档