- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师专业能力考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种数据预处理方法最适用于非线性关系的缺失值填补?
A.均值填补法
B.随机森林填补法
C.删除缺失值记录
D.K近邻(KNN)填补法
答案:B
解析:随机森林填补法通过构建模型预测缺失值,能捕捉变量间的非线性关系,适用于复杂数据场景(正确);均值填补法假设数据呈正态分布,可能破坏原有分布(错误);删除缺失值记录会导致数据量损失(错误);KNN填补法计算成本高且对高维数据不敏感(错误)。
在分类任务中,当正负样本比例为1:99时,最不适合的评估指标是?
A.准确率(Accuracy)
B.F1分数
C.ROC-AUC
D.召回率(Recall)
答案:A
解析:准确率在类别极不平衡时会因多数类主导而虚高(如全部预测为负样本时准确率仍达99%),无法反映模型对少数类的识别能力(错误);F1、ROC-AUC、召回率均能有效评估不平衡数据(正确)。
以下哪种方法不能有效缓解过拟合?
A.增加训练数据量
B.降低模型复杂度(如减少决策树深度)
C.对输入数据进行标准化
D.应用L2正则化
答案:C
解析:标准化是数据预处理步骤,用于消除量纲影响,与过拟合无直接关联(错误);增加数据量、降低复杂度、正则化均是经典的过拟合缓解方法(正确)。
特征工程中,“将连续变量年龄划分为[0-18,19-35,36-60,61+]”属于?
A.特征构造
B.特征选择
C.特征离散化
D.特征标准化
答案:C
解析:离散化是将连续变量分段转化为类别变量的过程(正确);构造是生成新特征(如年龄×收入),选择是筛选重要特征,标准化是归一化处理(错误)。
以下模型中,最适合处理高维稀疏文本数据的是?
A.逻辑回归(LR)
B.支持向量机(SVM)
C.K-均值聚类(K-Means)
D.决策树(DT)
答案:A
解析:逻辑回归对高维稀疏数据计算效率高,且可通过L1正则化实现特征选择(正确);SVM在高维下易过拟合,K-Means依赖距离计算,决策树对稀疏数据不敏感(错误)。
模型部署时,以下哪个步骤不属于在线监控范畴?
A.数据漂移检测(DataDrift)
B.模型性能衰减预警
C.训练集重采样
D.预测结果异常值报警
答案:C
解析:训练集重采样是离线训练阶段的操作(错误);数据漂移、性能衰减、异常报警均属于在线监控的核心内容(正确)。
衡量数据质量的关键指标不包括?
A.完整性(Completeness)
B.一致性(Consistency)
C.多样性(Diversity)
D.准确性(Accuracy)
答案:C
解析:数据质量通常关注完整性(无缺失)、一致性(格式统一)、准确性(与真实值匹配)(正确);多样性是数据分布的特性,非质量指标(错误)。
L1正则化与L2正则化的主要区别是?
A.L1更易得到稀疏解,L2更平滑
B.L1用于分类任务,L2用于回归任务
C.L1降低模型偏差,L2降低模型方差
D.L1适用于小数据,L2适用于大数据
答案:A
解析:L1正则化通过L1范数惩罚权重,促使部分权重为0(稀疏解);L2通过L2范数惩罚,使权重更平滑(正确);两者无任务限制,均降低方差(错误)。
集成学习中,随机森林(RandomForest)的“随机”不体现在?
A.随机选择样本(Bootstrap采样)
B.随机选择特征子集
C.随机初始化树的分裂阈值
D.随机设置树的最大深度
答案:D
解析:随机森林的随机性体现在样本Bootstrap、特征子集选择(正确);树的深度通常由超参数设定,非随机(错误)。
时间序列建模中,“白噪声”的核心特征是?
A.存在显著的自相关性
B.均值为0,方差恒定,无自相关性
C.具有季节性波动
D.包含趋势项和周期项
答案:B
解析:白噪声是平稳随机序列,均值和方差恒定,且各时间点无自相关(正确);自相关、季节性、趋势均是白噪声的反面特征(错误)。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
以下属于特征选择方法的有?
A.卡方检验(Chi-squareTest)
B.递归特征消除(RFE)
C.主成分分析(PCA)
D.LASSO回归
答案:ABD
解析:卡方检验(过滤法)、RFE(包装法)、LASSO(嵌入法)均为特征选择方法(正确);PCA是特征降维(提取新特征),非选择(错误)。
分类模型评估中,常用的指标包括?
A.均方误差(MSE)
B.F1分数
C.ROC曲线下面积(AUC)
D.平均绝对误差(MAE)
答案:BC
解析:F1(综合精确率与召回率)、AUC(衡量分类阈值稳定性)是分类任务核心指
您可能关注的文档
最近下载
- 工业机器人编程语言:RAPID(ABB):RAPID数据类型与变量.lever.pdf VIP
- 超甜玉米新品种鄂甜玉号的选育及栽培技术.doc VIP
- 高校食堂成本现状及面临的挑战分析.docx
- 合同审查及风险防范.ppt VIP
- 工程质量、安全生产、文明施工的承诺.doc VIP
- 企业合规管理实施方案合规合同管理.pptx VIP
- 企业合同管理与合规管理培训课件.pptx VIP
- 热工基础(张学学主编)第三版思考题及习题答案详解.pdf VIP
- DBJ04T 440-2023 电动自行车停放充电场所防火技术标准.pdf VIP
- DBJ04_T 440-2023 电动自行车停放充电场所防火技术标准.docx VIP
原创力文档


文档评论(0)