2025年数据建模工程师考试题库（附答案和详细解析）（0930）.docxVIP

下载本文档

2
0
约8.84千字
约 12页
2025-10-29 发布于江苏
举报
版权申诉

2025年数据建模工程师考试题库（附答案和详细解析）（0930）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

数据清洗中处理缺失值的核心原则是（）

A.直接删除所有含缺失值的样本

B.用全局均值填充所有数值型缺失值

C.根据业务场景选择删除、填充或建模处理

D.对缺失值列直接剔除

答案：C

解析：缺失值处理需结合业务逻辑（如医疗数据中某些指标缺失可能隐含特殊含义）、缺失比例（如缺失率70%可考虑删除列）及数据分布（如偏态分布用中位数而非均值填充）。选项A忽略小比例缺失值的利用价值；B未考虑数据分布差异；D对低缺失率列处理过于激进。

以下哪种情况最可能导致模型过拟合？（）

A.训练数据量远大于验证数据量

B.模型复杂度远高于数据复杂度

C.采用L2正则化方法

D.使用5折交叉验证

答案：B

解析：过拟合本质是模型学习了训练数据中的噪声，当模型复杂度（如深度神经网络）远超过数据本身的规律复杂度时易发生。A中数据量充足可缓解过拟合；C正则化是防过拟合手段；D交叉验证用于准确评估模型泛化能力，不直接导致过拟合。

分类任务中，若正负样本比例为1:100，最适合的评估指标是（）

A.准确率（Accuracy）

B.F1分数（F1-score）

C.均方误差（MSE）

D.混淆矩阵中的真负率（TNR）

答案：B

解析：样本极不平衡时，准确率会被多数类主导（如全预测负类准确率99%），无法反映模型对少数类的识别能力。F1分数综合了精确率和召回率，更关注少数类表现；C是回归指标；D仅反映负类正确识别率，忽略正类。

特征工程中“分箱（Binning）”的主要目的是（）

A.减少连续变量的计算复杂度

B.将连续变量转化为有序类别，捕捉非线性关系

C.消除特征间的多重共线性

D.提高特征的稀疏性

答案：B

解析：分箱通过将连续变量离散化为区间（如年龄分[0-18],[19-30]等），可缓解异常值影响，并让线性模型（如逻辑回归）能捕捉变量与目标的非线性关系。A是次要作用；C需通过VIF检验或主成分分析解决；D是独热编码的效果。

以下哪种模型天生具备可解释性？（）

A.随机森林（RandomForest）

B.逻辑回归（LogisticRegression）

C.多层感知机（MLP）

D.梯度提升树（XGBoost）

答案：B

解析：逻辑回归的系数直接反映特征对目标的贡献方向和大小（如系数为0.5表示特征每增加1单位，对数几率增加0.5），可解释性强。其他模型为树集成或神经网络，依赖特征重要性或局部解释（如SHAP）间接说明，原生可解释性弱。

时序数据建模时，若存在季节性周期（如周周期），关键处理步骤是（）

A.对数据进行标准化（Z-score）

B.提取周期特征（如星期几、小时）

C.删除前n个时间步的数据

D.增加模型的隐藏层数量

答案：B

解析：季节性周期的本质是时间相关的模式（如周末销量高），通过提取周期特征（如星期几、月份）可显式告知模型该模式。A是常规预处理；C可能丢失关键信息；D增加模型复杂度未必能捕捉周期性。

正则化（Regularization）的核心作用是（）

A.加速模型训练收敛速度

B.限制模型参数的大小，防止过拟合

C.提高模型对缺失值的鲁棒性

D.平衡正负样本的类别权重

答案：B

解析：L1/L2正则化通过在损失函数中添加参数范数惩罚项（如L2的λ||w||2），迫使模型选择更简单的参数组合，降低对训练数据噪声的拟合能力。A由学习率、优化器决定；C需通过数据清洗解决；D通过类别权重或采样方法实现。

交叉验证（CrossValidation）的主要目的是（）

A.选择模型的最优超参数（如树的深度）

B.增加训练数据的样本量

C.替代测试集评估模型性能

D.减少模型训练的计算成本

答案：A

解析：交叉验证（如K折）通过将训练集划分为K个子集，轮流作为验证集，可更稳定地评估不同超参数组合的泛化能力，避免单次随机划分的偶然性。B错误，数据量未增加；C测试集仍需保留；D可能增加计算成本（需训练K次）。

以下哪项不属于模型部署前的关键验证步骤？（）

A.数据漂移检测（DataDrift）

B.模型推理速度测试

C.训练集与测试集分布一致性检验

D.特征重要性可视化

答案：C

解析：训练集与测试集分布一致性检验应在建模前完成（如通过KS检验或PSI指标），部署前需验证的是生产环境数据与训练数据是否存在漂移（A）、模型是否满足实时性要求（B）、以及业务方对特征重要性的理解（D）。

对于高维稀疏数据（如文本TF-IDF特征），最适合的分类模型是（）

A.K近邻（KNN）

B.支持向量机（SVM）

C.决策树（DecisionTree）

D.线性判别分析（LDA）

答案：B

您可能关注的文档

文档评论（0）

nastasia + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据建模工程师考试题库（附答案和详细解析）（0930）.docxVIP