2026年数据建模工程师考试题库（附答案和详细解析）（0101）.docxVIP

下载本文档

2
0
约7.43千字
约 11页
2026-01-06 发布于上海
举报
版权申诉

2026年数据建模工程师考试题库（附答案和详细解析）（0101）.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据建模工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在数据预处理中，针对数值型特征的缺失值处理，以下哪种方法最适用于存在大量异常值的场景？

A.直接删除缺失值所在行

B.用均值填充缺失值

C.用中位数填充缺失值

D.用众数填充缺失值

答案：C

解析：均值易受异常值影响（B错误）；直接删除会丢失大量数据（A错误）；众数适用于分类特征（D错误）；中位数对异常值不敏感，能更好反映数据集中趋势（C正确）。

以下哪种评估指标最适合用于二分类问题的不平衡数据集？

A.准确率（Accuracy）

B.F1分数（F1-score）

C.均方误差（MSE）

D.R方（R2）

答案：B

解析：准确率在正负样本失衡时无法反映模型真实性能（A错误）；MSE和R2用于回归问题（C、D错误）；F1分数综合了精确率和召回率，适合不平衡数据（B正确）。

逻辑回归（LogisticRegression）的损失函数通常是？

A.均方误差（MSE）

B.交叉熵损失（Cross-EntropyLoss）

C.绝对误差（MAE）

D.HingeLoss

答案：B

解析：逻辑回归是分类模型，使用交叉熵损失衡量预测概率与真实标签的差异（B正确）；MSE和MAE用于回归（A、C错误）；HingeLoss是SVM的损失函数（D错误）。

以下哪项不是过拟合的典型表现？

A.训练集准确率远高于测试集

B.模型在简单数据上表现优异

C.模型对噪声高度敏感

D.模型参数数量远多于训练样本量

答案：B

解析：过拟合表现为训练集性能好但泛化差（A正确）、过度拟合噪声（C正确）、参数过多（D正确）；“简单数据表现优异”是欠拟合的特征（B错误）。

在特征工程中，对“用户注册时间（2023-01-0112:30:00）”进行特征提取时，最不相关的特征是？

A.注册月份

B.注册小时

C.注册年份

D.注册时的毫秒数

答案：D

解析：月份、小时、年份可能与用户行为模式相关（A、B、C相关）；毫秒级精度对用户行为分析无实际意义（D不相关）。

以下哪种算法属于集成学习中的Boosting方法？

A.随机森林（RandomForest）

B.梯度提升树（GBDT）

C.K近邻（KNN）

D.支持向量机（SVM）

答案：B

解析：随机森林是Bagging方法（A错误）；KNN和SVM是单模型（C、D错误）；GBDT通过迭代提升弱分类器性能，属于Boosting（B正确）。

时间序列预测中，ARIMA模型的“MA”代表？

A.自回归（AutoRegressive）

B.移动平均（MovingAverage）

C.差分（Differencing）

D.整合（Integrated）

答案：B

解析：AR是自回归（A错误）；I是整合（D错误）；MA是移动平均（B正确）；差分是处理非平稳性的步骤（C错误）。

数据仓库建模中，维度建模的核心是？

A.第三范式（3NF）

B.星型模式（StarSchema）

C.雪花模式（SnowflakeSchema）

D.实体-关系模型（ERModel）

答案：B

解析：第三范式和ER模型用于OLTP系统（A、D错误）；雪花模式是星型的扩展（C错误）；维度建模以事实表和维度表为核心，典型表现为星型模式（B正确）。

以下哪种场景最适合使用K-means聚类算法？

A.识别用户分群（无标签）

B.预测用户是否流失（二分类）

C.预测房价（回归）

D.检测信用卡异常交易（小样本）

答案：A

解析：K-means是无监督学习，用于聚类（A正确）；B是分类（监督），C是回归（监督），D适合孤立森林（异常检测）（B、C、D错误）。

模型部署时，以下哪种方式最适合低延迟、高并发的在线预测场景？

A.Python脚本定时批处理

B.TensorFlowServing

C.JupyterNotebook实时计算

D.Excel公式计算

答案：B

解析：Python脚本和JupyterNotebook无法满足高并发（A、C错误）；Excel仅适用于离线（D错误）；TensorFlowServing是专门的模型服务框架，支持高并发低延迟（B正确）。

二、多项选择题（共10题，每题2分，共20分）

以下属于特征选择常用方法的有？

A.卡方检验（Chi-squareTest）

B.递归特征消除（RFE）

C.主成分分析（PCA）

D.LASSO回归

答案：ABD

解析：卡方检验（过滤法）、RFE（包装法）、LASSO（嵌入法）均为特征选择方法（A、B、D正确）；PCA是降维（特征提取），非选择（C错误）。

评估回归模型性能的指标包括？

A.均方根误差（RMSE）

您可能关注的文档

文档评论（0）

eureka + 关注: 实名认证

文档贡献者

中国证券投资基金业从业证书、计算机二级持证人

好好学习，天天向上

咨询Ta 进入空间

领域认证该用户于2025年03月25日上传了中国证券投资基金业从业证书、计算机二级

1亿VIP精品文档

更多 >

2026年数据建模工程师考试题库（附答案和详细解析）（0101）.docxVIP