2025年数据建模工程师考试题库(附答案和详细解析)(0930).docxVIP

2025年数据建模工程师考试题库(附答案和详细解析)(0930).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

数据清洗中处理缺失值的核心原则是()

A.直接删除所有含缺失值的样本

B.用全局均值填充所有数值型缺失值

C.根据业务场景选择删除、填充或建模处理

D.对缺失值列直接剔除

答案:C

解析:缺失值处理需结合业务逻辑(如医疗数据中某些指标缺失可能隐含特殊含义)、缺失比例(如缺失率70%可考虑删除列)及数据分布(如偏态分布用中位数而非均值填充)。选项A忽略小比例缺失值的利用价值;B未考虑数据分布差异;D对低缺失率列处理过于激进。

以下哪种情况最可能导致模型过拟合?()

A.训练数据量远大于验证数据量

B.模型复杂度远高于数据复杂度

C.采用L2正则化方法

D.使用5折交叉验证

答案:B

解析:过拟合本质是模型学习了训练数据中的噪声,当模型复杂度(如深度神经网络)远超过数据本身的规律复杂度时易发生。A中数据量充足可缓解过拟合;C正则化是防过拟合手段;D交叉验证用于准确评估模型泛化能力,不直接导致过拟合。

分类任务中,若正负样本比例为1:100,最适合的评估指标是()

A.准确率(Accuracy)

B.F1分数(F1-score)

C.均方误差(MSE)

D.混淆矩阵中的真负率(TNR)

答案:B

解析:样本极不平衡时,准确率会被多数类主导(如全预测负类准确率99%),无法反映模型对少数类的识别能力。F1分数综合了精确率和召回率,更关注少数类表现;C是回归指标;D仅反映负类正确识别率,忽略正类。

特征工程中“分箱(Binning)”的主要目的是()

A.减少连续变量的计算复杂度

B.将连续变量转化为有序类别,捕捉非线性关系

C.消除特征间的多重共线性

D.提高特征的稀疏性

答案:B

解析:分箱通过将连续变量离散化为区间(如年龄分[0-18],[19-30]等),可缓解异常值影响,并让线性模型(如逻辑回归)能捕捉变量与目标的非线性关系。A是次要作用;C需通过VIF检验或主成分分析解决;D是独热编码的效果。

以下哪种模型天生具备可解释性?()

A.随机森林(RandomForest)

B.逻辑回归(LogisticRegression)

C.多层感知机(MLP)

D.梯度提升树(XGBoost)

答案:B

解析:逻辑回归的系数直接反映特征对目标的贡献方向和大小(如系数为0.5表示特征每增加1单位,对数几率增加0.5),可解释性强。其他模型为树集成或神经网络,依赖特征重要性或局部解释(如SHAP)间接说明,原生可解释性弱。

时序数据建模时,若存在季节性周期(如周周期),关键处理步骤是()

A.对数据进行标准化(Z-score)

B.提取周期特征(如星期几、小时)

C.删除前n个时间步的数据

D.增加模型的隐藏层数量

答案:B

解析:季节性周期的本质是时间相关的模式(如周末销量高),通过提取周期特征(如星期几、月份)可显式告知模型该模式。A是常规预处理;C可能丢失关键信息;D增加模型复杂度未必能捕捉周期性。

正则化(Regularization)的核心作用是()

A.加速模型训练收敛速度

B.限制模型参数的大小,防止过拟合

C.提高模型对缺失值的鲁棒性

D.平衡正负样本的类别权重

答案:B

解析:L1/L2正则化通过在损失函数中添加参数范数惩罚项(如L2的λ||w||2),迫使模型选择更简单的参数组合,降低对训练数据噪声的拟合能力。A由学习率、优化器决定;C需通过数据清洗解决;D通过类别权重或采样方法实现。

交叉验证(CrossValidation)的主要目的是()

A.选择模型的最优超参数(如树的深度)

B.增加训练数据的样本量

C.替代测试集评估模型性能

D.减少模型训练的计算成本

答案:A

解析:交叉验证(如K折)通过将训练集划分为K个子集,轮流作为验证集,可更稳定地评估不同超参数组合的泛化能力,避免单次随机划分的偶然性。B错误,数据量未增加;C测试集仍需保留;D可能增加计算成本(需训练K次)。

以下哪项不属于模型部署前的关键验证步骤?()

A.数据漂移检测(DataDrift)

B.模型推理速度测试

C.训练集与测试集分布一致性检验

D.特征重要性可视化

答案:C

解析:训练集与测试集分布一致性检验应在建模前完成(如通过KS检验或PSI指标),部署前需验证的是生产环境数据与训练数据是否存在漂移(A)、模型是否满足实时性要求(B)、以及业务方对特征重要性的理解(D)。

对于高维稀疏数据(如文本TF-IDF特征),最适合的分类模型是()

A.K近邻(KNN)

B.支持向量机(SVM)

C.决策树(DecisionTree)

D.线性判别分析(LDA)

答案:B

文档评论(0)

nastasia + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档