- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是处理缺失值的合理策略?
A.直接删除所有包含缺失值的样本
B.对所有数值型变量用均值填充
C.根据业务场景选择删除、填充或建模
D.忽略缺失值直接输入模型
答案:C
解析:缺失值处理需结合业务场景:少量缺失可删除(A错误),不同变量(如年龄用均值、收入用中位数)需差异化填充(B错误),忽略缺失值会导致模型错误(D错误)。合理策略是根据变量重要性、缺失比例等选择处理方式(C正确)。
评估回归模型时,以下哪个指标更关注预测值与真实值的绝对误差?
A.MSE(均方误差)
B.MAE(平均绝对误差)
C.R2(决定系数)
D.RMSE(均方根误差)
答案:B
解析:MAE直接计算绝对误差的平均值(B正确);MSE和RMSE关注平方误差(A、D错误);R2衡量模型解释方差的比例(C错误)。
以下哪种方法最适合解决决策树的过拟合问题?
A.增加树的深度
B.限制叶子节点最小样本数
C.减少训练数据量
D.不进行特征选择
答案:B
解析:限制叶子节点最小样本数可降低模型复杂度(B正确);增加深度会加剧过拟合(A错误);减少训练数据量会降低模型泛化能力(C错误);不进行特征选择可能引入噪声(D错误)。
特征工程中,“将用户出生日期转换为年龄”属于?
A.特征选择
B.特征提取
C.特征构造
D.特征缩放
答案:C
解析:特征构造是通过现有特征生成新特征(如年龄=当前年份-出生年份)(C正确);特征选择是筛选重要特征(A错误);特征提取是降维(B错误);特征缩放是标准化(D错误)。
以下哪类模型不需要进行特征缩放?
A.逻辑回归
B.支持向量机
C.随机森林
D.神经网络
答案:C
解析:树模型(如随机森林)基于特征分箱,不受量纲影响(C正确);线性模型、SVM、神经网络依赖梯度计算,需特征缩放(A、B、D错误)。
混淆矩阵中,“假阳性(FalsePositive)”指?
A.真实正类被预测为正类
B.真实负类被预测为正类
C.真实正类被预测为负类
D.真实负类被预测为负类
答案:B
解析:假阳性是负样本被错误预测为正(B正确);A是真阳性,C是假阴性,D是真阴性。
以下哪种集成学习方法属于“Boosting”类型?
A.随机森林(RandomForest)
B.XGBoost
C.梯度提升树(GradientBoosting)
D.B和C
答案:D
解析:XGBoost和梯度提升树均通过迭代修正前序模型误差(Boosting)(D正确);随机森林是并行的Bagging方法(A错误)。
时间序列建模中,“季节性”指?
A.数据随时间递增或递减的长期趋势
B.固定周期(如12个月)的重复模式
C.随机波动的噪声
D.突发的异常值
答案:B
解析:季节性是固定周期的重复模式(如夏季用电量高峰)(B正确);长期趋势是趋势项(A错误),噪声是随机项(C错误),异常值是突发波动(D错误)。
以下哪项不是模型可解释性的常用方法?
A.SHAP值
B.LIME局部解释
C.特征重要性排序
D.增加模型复杂度
答案:D
解析:增加复杂度会降低可解释性(D错误);SHAP、LIME、特征重要性均是解释方法(A、B、C正确)。
数据泄露(DataLeakage)最可能导致?
A.模型在训练集表现差
B.模型泛化能力下降
C.特征维度过高
D.计算资源消耗增加
答案:B
解析:数据泄露(如测试集信息混入训练)会使模型“记忆”非真实模式,导致泛化能力下降(B正确);训练集表现可能虚高(A错误),与特征维度、计算资源无关(C、D错误)。
二、多项选择题(共10题,每题2分,共20分)
数据预处理的核心步骤包括?
A.缺失值处理
B.异常值检测
C.特征选择
D.数据标准化
答案:ABD
解析:数据预处理包括清洗(缺失值、异常值)、变换(标准化)(A、B、D正确);特征选择属于特征工程(C错误)。
评估分类模型时,适合不平衡数据集的指标有?
A.准确率(Accuracy)
B.F1分数
C.ROC-AUC
D.召回率(Recall)
答案:BCD
解析:不平衡数据中准确率易被多数类主导(A错误);F1、ROC-AUC、召回率关注少数类表现(B、C、D正确)。
以下哪些方法可用于解决过拟合?
A.增加正则化参数
B.早停法(EarlyStopping)
C.交叉验证
D.减少特征数量
答案:ABD
解析:正则化、早停、减少特征可降低复杂度(A、B、D正确);交叉验证用于评估泛化能力,不直接解决过拟合(C错误)。
特征工程的主要方法包括?
A.特征构造(如用户消费频率=总消费/活跃
您可能关注的文档
- 2025年国际金融市场从业资格(ICMA)考试题库(附答案和详细解析)(1217).docx
- 2025年外交翻译考试(DFT)考试题库(附答案和详细解析)(1219).docx
- 2025年工业大数据分析师考试题库(附答案和详细解析)(1209).docx
- 2025年康复治疗师考试题库(附答案和详细解析)(1213).docx
- 2025年注册信息架构师考试题库(附答案和详细解析)(1215).docx
- 2025年注册信息系统安全专家(CISSP)考试题库(附答案和详细解析)(1215).docx
- 2025年注册勘察设计工程师考试题库(附答案和详细解析)(1218).docx
- 2025年精算师考试题库(附答案和详细解析)(1212).docx
- 2025年艺术品鉴定评估师考试题库(附答案和详细解析)(1214).docx
- Heston模型参数校准——基于MLE方法.docx
最近下载
- 中文TakenateD-120NforPETfilmv4(3FCL).pdf VIP
- 30万吨年硫铁矿制酸设备资料.doc VIP
- 《汽轮机原理》习题及答案.doc VIP
- NB/T 20308-2024 核电厂核安全相关厂房地基基础设计规范.pdf VIP
- 二建继续教育考试题及答案.doc VIP
- 中西医结合妇产科学知识点.docx VIP
- 被执行人生活费申请书范文.docx VIP
- 2025年二级建造师继续教育考试模拟题库及解析答案.docx VIP
- 住院医师规范化培训结业考核临床实践能力考核规程(骨科)全套资料.pdf VIP
- 2025年重庆市政府采购评审专家考试试题及答案.docx VIP
原创力文档


文档评论(0)