2025年数据建模工程师考试题库（附答案和详细解析）（1015）.docxVIP

下载本文档

1
0
约8.57千字
约 11页
2025-11-10 发布于湖北
举报
版权申诉

2025年数据建模工程师考试题库（附答案和详细解析）（1015）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪种模型属于参数化模型？

A.K近邻（KNN）

B.线性回归

C.决策树

D.随机森林

答案：B

解析：参数化模型假设数据服从特定形式的分布，模型参数数量固定（如线性回归的权重和偏置）。非参数化模型（如KNN、决策树、随机森林）的参数数量随数据量变化，因此B正确。A、C、D均为非参数模型。

评估回归模型时，均方根误差（RMSE）与平均绝对误差（MAE）的主要区别是？

A.RMSE对异常值更敏感

B.MAE计算更复杂

C.RMSE的单位与原数据不一致

D.MAE无法反映预测偏差方向

答案：A

解析：RMSE是误差平方的均值平方根，对大误差（异常值）的惩罚更大；MAE是绝对误差的均值，对异常值更鲁棒。B错误（MAE计算更简单）；C错误（RMSE单位与原数据一致）；D错误（两者均不反映方向）。

处理高基数分类特征（如“用户ID”）时，最不适合的编码方法是？

A.独热编码（One-HotEncoding）

B.目标编码（TargetEncoding）

C.频率编码（FrequencyEncoding）

D.哈希编码（HashingEncoding）

答案：A

解析：独热编码会为每个类别生成一个二进制特征，高基数特征（如10万类用户ID）会导致维度爆炸（维度=类别数），计算成本极高。B、C、D均可降低维度，因此A最不适合。

以下哪种方法不能有效缓解模型过拟合？

A.增加训练数据量

B.降低模型复杂度（如减少决策树深度）

C.应用L2正则化

D.提高学习率（LearningRate）

答案：D

解析：过拟合的本质是模型对训练数据过度学习，泛化能力差。增加数据、降低复杂度、正则化均可缓解过拟合；提高学习率可能导致优化过程震荡，与过拟合无直接关联，因此D错误。

标准化（Z-Score）与归一化（Min-MaxScaling）的主要区别是？

A.标准化不改变数据分布形态

B.归一化将数据缩放到[-1,1]

C.标准化适用于有异常值的数据

D.归一化对异常值不敏感

答案：A

解析：标准化（均值0，标准差1）和归一化（缩放到[0,1]或指定范围）均为线性变换，不改变数据分布形态（如正态性）。B错误（归一化通常到[0,1]）；C错误（标准化对异常值敏感）；D错误（归一化受异常值影响大）。

随机森林（RandomForest）的基学习器是？

A.线性回归模型

B.逻辑回归模型

C.决策树

D.支持向量机（SVM）

答案：C

解析：随机森林是Bagging集成方法，基学习器为多棵决策树（CART），通过随机采样样本和特征训练，因此C正确。

K折交叉验证（K-FoldCV）的主要目的是？

A.提高模型训练速度

B.评估模型泛化能力

C.选择最优超参数

D.减少数据预处理时间

答案：B

解析：交叉验证通过将数据划分为K个子集，轮流作为验证集，降低单次划分的随机性影响，更可靠地评估模型泛化能力（B正确）。A、D与交叉验证无关；C是网格搜索等调参方法的目的。

逻辑回归（LogisticRegression）的损失函数是？

A.均方误差（MSE）

B.交叉熵损失（Cross-Entropy）

C.绝对值误差（MAE）

D.Huber损失

答案：B

解析：逻辑回归用于二分类，通过sigmoid函数输出概率，损失函数为交叉熵（衡量预测概率与真实标签的差异），因此B正确。A、C、D为回归模型损失函数。

以下哪种集成学习方法属于Boosting？

A.随机森林（RandomForest）

B.梯度提升树（GBRT）

C.极端随机树（ExtraTrees）

D.投票分类器（VotingClassifier）

答案：B

解析：Boosting通过串行训练基学习器，重点关注前一个模型的错误样本（如GBRT、XGBoost）；Bagging（A、C）和投票（D）是并行训练。因此B正确。

模型部署时，ONNX（开放神经网络交换格式）的主要作用是？

A.加速模型训练

B.统一不同框架的模型表示

C.提高模型准确率

D.压缩模型参数大小

答案：B

解析：ONNX定义了通用的模型格式，支持不同框架（如PyTorch、TensorFlow）训练的模型相互转换，解决部署时的框架依赖问题（B正确）。A、C、D非其核心功能。

二、多项选择题（共10题，每题2分，共20分）

特征选择的常用方法包括？

A.过滤法（Filter）

B.包装法（Wrapper）

C.嵌入法（Embedded）

D.主成分分析（PCA）

答案：ABC

解析：特征选择是从原始特征中筛选关键特征，方法包括：过滤法（基于统计量，如卡方检验）、

您可能关注的文档

文档评论（0）

MenG + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据建模工程师考试题库（附答案和详细解析）（1015）.docxVIP