- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
数据清洗中处理缺失值的核心原则是()
A.直接删除所有含缺失值的样本
B.用全局均值填充所有数值型缺失值
C.根据业务场景选择删除、填充或建模处理
D.对缺失值列直接剔除
答案:C
解析:缺失值处理需结合业务逻辑(如医疗数据中某些指标缺失可能隐含特殊含义)、缺失比例(如缺失率70%可考虑删除列)及数据分布(如偏态分布用中位数而非均值填充)。选项A忽略小比例缺失值的利用价值;B未考虑数据分布差异;D对低缺失率列处理过于激进。
以下哪种情况最可能导致模型过拟合?()
A.训练数据量远大于验证数据量
B.模型复杂度远高于数据复杂度
C.采用L2正则化方法
D.使用5折交叉验证
答案:B
解析:过拟合本质是模型学习了训练数据中的噪声,当模型复杂度(如深度神经网络)远超过数据本身的规律复杂度时易发生。A中数据量充足可缓解过拟合;C正则化是防过拟合手段;D交叉验证用于准确评估模型泛化能力,不直接导致过拟合。
分类任务中,若正负样本比例为1:100,最适合的评估指标是()
A.准确率(Accuracy)
B.F1分数(F1-score)
C.均方误差(MSE)
D.混淆矩阵中的真负率(TNR)
答案:B
解析:样本极不平衡时,准确率会被多数类主导(如全预测负类准确率99%),无法反映模型对少数类的识别能力。F1分数综合了精确率和召回率,更关注少数类表现;C是回归指标;D仅反映负类正确识别率,忽略正类。
特征工程中“分箱(Binning)”的主要目的是()
A.减少连续变量的计算复杂度
B.将连续变量转化为有序类别,捕捉非线性关系
C.消除特征间的多重共线性
D.提高特征的稀疏性
答案:B
解析:分箱通过将连续变量离散化为区间(如年龄分[0-18],[19-30]等),可缓解异常值影响,并让线性模型(如逻辑回归)能捕捉变量与目标的非线性关系。A是次要作用;C需通过VIF检验或主成分分析解决;D是独热编码的效果。
以下哪种模型天生具备可解释性?()
A.随机森林(RandomForest)
B.逻辑回归(LogisticRegression)
C.多层感知机(MLP)
D.梯度提升树(XGBoost)
答案:B
解析:逻辑回归的系数直接反映特征对目标的贡献方向和大小(如系数为0.5表示特征每增加1单位,对数几率增加0.5),可解释性强。其他模型为树集成或神经网络,依赖特征重要性或局部解释(如SHAP)间接说明,原生可解释性弱。
时序数据建模时,若存在季节性周期(如周周期),关键处理步骤是()
A.对数据进行标准化(Z-score)
B.提取周期特征(如星期几、小时)
C.删除前n个时间步的数据
D.增加模型的隐藏层数量
答案:B
解析:季节性周期的本质是时间相关的模式(如周末销量高),通过提取周期特征(如星期几、月份)可显式告知模型该模式。A是常规预处理;C可能丢失关键信息;D增加模型复杂度未必能捕捉周期性。
正则化(Regularization)的核心作用是()
A.加速模型训练收敛速度
B.限制模型参数的大小,防止过拟合
C.提高模型对缺失值的鲁棒性
D.平衡正负样本的类别权重
答案:B
解析:L1/L2正则化通过在损失函数中添加参数范数惩罚项(如L2的λ||w||2),迫使模型选择更简单的参数组合,降低对训练数据噪声的拟合能力。A由学习率、优化器决定;C需通过数据清洗解决;D通过类别权重或采样方法实现。
交叉验证(CrossValidation)的主要目的是()
A.选择模型的最优超参数(如树的深度)
B.增加训练数据的样本量
C.替代测试集评估模型性能
D.减少模型训练的计算成本
答案:A
解析:交叉验证(如K折)通过将训练集划分为K个子集,轮流作为验证集,可更稳定地评估不同超参数组合的泛化能力,避免单次随机划分的偶然性。B错误,数据量未增加;C测试集仍需保留;D可能增加计算成本(需训练K次)。
以下哪项不属于模型部署前的关键验证步骤?()
A.数据漂移检测(DataDrift)
B.模型推理速度测试
C.训练集与测试集分布一致性检验
D.特征重要性可视化
答案:C
解析:训练集与测试集分布一致性检验应在建模前完成(如通过KS检验或PSI指标),部署前需验证的是生产环境数据与训练数据是否存在漂移(A)、模型是否满足实时性要求(B)、以及业务方对特征重要性的理解(D)。
对于高维稀疏数据(如文本TF-IDF特征),最适合的分类模型是()
A.K近邻(KNN)
B.支持向量机(SVM)
C.决策树(DecisionTree)
D.线性判别分析(LDA)
答案:B
您可能关注的文档
- 2025年注册信息系统安全专家(CISSP)考试题库(附答案和详细解析)(1003).docx
- 2025年注册地质工程师考试题库(附答案和详细解析)(1002).docx
- 2025年绿色金融认证考试题库(附答案和详细解析)(0924).docx
- 农村宅基地纠纷解决方式.docx
- 建筑物倒塌责任.docx
- 青铜时代金属冶炼发展.docx
- 2025年注册会计师(CPA)考试题库(附答案和详细解析)(0925).docx
- 医疗责任险的风险评估.docx
- 古希腊戏剧教育制度.docx
- 商业智能在金融决策中的应用.docx
- 2025年新媒体运营师考试题库(附答案和详细解析)(0920).docx
- 2025年注册核工程师考试题库(附答案和详细解析)(1002).docx
- 2025年深度学习工程师考试题库(附答案和详细解析)(1004).docx
- 2025年边缘计算工程师考试题库(附答案和详细解析)(1004).docx
- 2025年高级数据分析师考试题库(附答案和详细解析)(1004).docx
- 健身房受伤责任.docx
- 软件著作权登记效力.docx
- 2025年国际会展管理师考试题库(附答案和详细解析)(1004).docx
- 2025年脑机接口研究员考试题库(附答案和详细解析)(1003).docx
- 2025年英国特许证券与投资协会会员(CISI)考试题库(附答案和详细解析)(0926).docx
原创力文档


文档评论(0)