2025年数据建模工程师考试题库(附答案和详细解析)(1128).docxVIP

2025年数据建模工程师考试题库(附答案和详细解析)(1128).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据建模工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是衡量分类模型在正负样本分布不均衡时的关键指标?

A.准确率(Accuracy)

B.F1分数(F1-score)

C.均方误差(MSE)

D.R方值(R2)

答案:B

解析:准确率在样本不均衡时会被多数类主导(如99%负样本时,全预测负样本准确率99%但无意义);均方误差和R方值是回归模型指标;F1分数综合了精确率和召回率,适用于不均衡场景。

以下哪种方法最适合处理高维数据中的多重共线性问题?

A.主成分分析(PCA)

B.标准化(Z-score)

C.随机森林特征重要性

D.欠采样(Under-sampling)

答案:A

解析:多重共线性指特征间高度相关,PCA通过线性变换将高维数据投影到低维正交空间,消除共线性;标准化仅调整量纲,不解决共线性;特征重要性用于筛选特征;欠采样用于处理类别不平衡。

在逻辑回归模型中,正则化参数λ(Lambda)增大时,模型复杂度会:

A.不变

B.先增大后减小

C.减小

D.增大

答案:C

解析:正则化(如L2)通过惩罚大的权重参数抑制过拟合,λ越大,惩罚力度越强,模型更简单(复杂度降低)。

时间序列建模中,“季节性”指的是:

A.数据随时间呈现的长期递增/递减趋势

B.数据以固定周期重复的模式(如年度、月度)

C.数据中的随机波动部分

D.数据因外部事件产生的突发变化

答案:B

解析:趋势(Trend)是长期变化;季节性(Seasonality)是固定周期的重复模式(如夏季用电量高峰);随机波动是残差(Residual);突发变化是异常值(Outlier)。

以下哪项不属于特征工程中的“特征构造”?

A.从日期字段提取“星期几”

B.计算“收入/支出”作为新特征

C.用XGBoost计算特征重要性

D.将“年龄”分箱为“青年/中年/老年”

答案:C

解析:特征构造是生成新特征的过程(A、B、D均为构造);特征重要性计算属于特征选择,用于筛选已有特征。

评估回归模型时,“平均绝对误差(MAE)”与“均方误差(MSE)”的主要区别是:

A.MAE对异常值更敏感

B.MSE对异常值更敏感

C.MAE是无偏估计,MSE是有偏估计

D.MSE的单位与原数据一致

答案:B

解析:MSE计算误差的平方,会放大异常值的影响(如误差2变为4,误差3变为9);MAE是绝对误差,对异常值更鲁棒;两者均为无偏估计;MAE单位与原数据一致,MSE单位是平方。

以下哪种场景最适合使用K-means聚类?

A.预测用户是否会购买某商品(二分类)

B.识别客户群体的潜在细分(无监督)

C.预测房价(连续值)

D.检测信用卡交易中的异常操作(异常检测)

答案:B

解析:K-means是无监督学习,用于聚类(分组);A是分类任务(监督);C是回归任务(监督);D通常用孤立森林或LOF(局部离群因子)。

在模型调参中,“网格搜索(GridSearch)”与“随机搜索(RandomSearch)”的主要区别是:

A.网格搜索覆盖所有参数组合,随机搜索随机采样

B.随机搜索计算效率更低

C.网格搜索更适合高维参数空间

D.随机搜索无法找到最优解

答案:A

解析:网格搜索遍历预设参数网格的所有组合(计算成本高,适合低维);随机搜索随机采样参数组合(效率更高,适合高维);两者均可能找到近似最优解。

以下哪项是数据清洗中处理缺失值的合理方法?

A.直接删除所有含缺失值的样本(当缺失率50%时)

B.用变量均值填充时间序列数据的缺失值

C.对分类变量用“未知”作为新类别填充

D.对数值变量用最大值填充缺失值

答案:C

解析:缺失率50%时直接删除会丢失大量信息,应考虑插值或模型预测;时间序列需考虑时序性(如前向填充);用最大值填充可能引入异常值;分类变量用“未知”保留缺失信息是合理方法。

以下哪种模型属于生成式模型?

A.逻辑回归

B.支持向量机(SVM)

C.朴素贝叶斯

D.梯度提升树(GBDT)

答案:C

解析:生成式模型学习联合分布P(X,Y)(如朴素贝叶斯假设特征独立,学习P(X|Y)和P(Y));判别式模型学习条件分布P(Y|X)(逻辑回归、SVM、GBDT均属此类)。

二、多项选择题(共10题,每题2分,共20分)

数据预处理中,“数据标准化(Z-score)”的适用场景包括:

A.特征量纲差异大(如身高cm与体重kg)

B.模型对尺度敏感(如SVM、KNN)

C.时间序列数据的趋势分析

D.决策树类模型(如随机森林)

答案:AB

解析:标准化通过(X-μ)/σ消除量纲影响,适用于依赖距离计算的模型(SVM、KNN);时间序列趋势分析需保留原始尺度;决策树

文档评论(0)

134****2152 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档