- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师专业考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种方法最适合处理高维分类数据中的类别型特征?
A.标准化(Z-score)
B.独热编码(One-HotEncoding)
C.对数变换(LogTransformation)
D.主成分分析(PCA)
答案:B
解析:类别型特征(如“性别”“职业”)需要将离散值转换为数值向量,独热编码通过二进制向量表示类别,避免了有序假设,是最适合的方法。A项标准化适用于连续型特征;C项对数变换用于处理偏态分布的连续特征;D项PCA是降维方法,不直接处理类别型特征。
在分类任务中,若数据存在严重类别不平衡(正类占比1%),最不适合的评估指标是?
A.准确率(Accuracy)
B.F1分数(F1-Score)
C.ROC-AUC
D.召回率(Recall)
答案:A
解析:准确率在类别不平衡时会失效(如全预测负类准确率可达99%)。B项F1分数综合精确率和召回率,适用于不平衡数据;C项ROC-AUC衡量模型区分能力,不受类别比例影响;D项召回率关注正类覆盖,是关键指标。
以下哪项是过拟合的典型表现?
A.训练集准确率低,验证集准确率低
B.训练集准确率高,验证集准确率低
C.训练集准确率低,验证集准确率高
D.训练集与验证集准确率接近
答案:B
解析:过拟合指模型过度学习训练数据的噪声,导致对新数据泛化能力差,表现为训练集效果好但验证集效果差。A项是欠拟合;C项不符合实际;D项是泛化能力好的表现。
线性回归模型中,若残差(实际值-预测值)呈现明显的异方差性(方差随自变量增大而增大),应优先采取以下哪种措施?
A.增加多项式特征
B.对因变量进行对数变换
C.引入L2正则化
D.减少训练数据量
答案:B
解析:异方差性(残差方差不恒定)通常通过对因变量进行幂变换(如对数变换)消除,使方差稳定。A项会加剧过拟合;C项正则化用于解决多重共线性或过拟合;D项会降低模型稳定性。
在随机森林(RandomForest)中,“随机”主要体现在?
A.随机选择样本子集(Bootstrap)和随机选择特征子集
B.随机初始化树的根节点
C.随机设置树的最大深度
D.随机选择损失函数
答案:A
解析:随机森林的“随机”体现在两方面:样本层面通过Bootstrap抽样生成子数据集;特征层面每次分裂时随机选择部分特征,降低模型方差。其他选项均不符合随机森林的核心机制。
以下哪种特征工程方法用于捕捉特征间的交互作用?
A.标准化(Standardization)
B.特征交叉(FeatureCross)
C.分箱(Binning)
D.缺失值填充(Imputation)
答案:B
解析:特征交叉通过组合两个或多个特征(如“年龄×收入”)生成新特征,用于捕捉原始特征间的交互效应。A项是数据缩放;C项将连续特征离散化;D项处理缺失值。
评估回归模型时,均方误差(MSE)与平均绝对误差(MAE)的主要区别是?
A.MSE对异常值更敏感
B.MAE计算更复杂
C.MSE衡量绝对误差,MAE衡量平方误差
D.MAE适用于分类任务
答案:A
解析:MSE是误差的平方均值,异常值的平方会显著放大其影响;MAE是绝对误差均值,对异常值更鲁棒。B项MAE计算更简单;C项描述相反;D项MAE是回归指标。
以下哪项不属于数据质量的核心维度?
A.完整性(Completeness)
B.一致性(Consistency)
C.可解释性(Interpretability)
D.准确性(Accuracy)
答案:C
解析:数据质量的核心维度包括完整性(无缺失)、一致性(格式统一)、准确性(与真实值匹配)、时效性等。可解释性是模型的特性,而非数据质量维度。
在K折交叉验证(K-FoldCV)中,K的选择通常建议?
A.K=1(留一法)
B.K=样本量的平方根
C.K=5或10
D.K越大越好
答案:C
解析:K=5或10是常用选择,既能平衡计算效率与评估稳定性。A项留一法计算成本高;B项无理论依据;D项K过大(如接近样本量)会导致各折数据高度相似,评估偏差增大。
梯度提升树(GBDT)的核心思想是?
A.并行训练多棵树,取平均预测结果
B.串行训练树,每棵树拟合前序模型的残差
C.随机选择特征子集构建树
D.通过正则化减少模型复杂度
答案:B
解析:GBDT是提升(Boosting)算法,通过迭代训练基模型(树),每棵树拟合当前模型的负梯度(残差),逐步降低整体误差。A项是随机森林的思想;C项是随机森林的特征选择方式;D项是正则化的作用。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
以下哪些方法可用于检
您可能关注的文档
- 2025年注册信息系统安全专家(CISSP)考试题库(附答案和详细解析)(1003).docx
- 2025年注册地质工程师考试题库(附答案和详细解析)(1002).docx
- 2025年绿色金融认证考试题库(附答案和详细解析)(0924).docx
- 农村宅基地纠纷解决方式.docx
- 建筑物倒塌责任.docx
- 青铜时代金属冶炼发展.docx
- 2025年注册会计师(CPA)考试题库(附答案和详细解析)(0925).docx
- 医疗责任险的风险评估.docx
- 古希腊戏剧教育制度.docx
- 商业智能在金融决策中的应用.docx
- 2025年智能制造工程师考试题库(附答案和详细解析)(1003).docx
- 2025年智能机器人系统集成师考试题库(附答案和详细解析)(0929).docx
- 2025年注册会计师(CPA)考试题库(附答案和详细解析)(1002).docx
- 2025年精准医疗工程师考试题库(附答案和详细解析)(1003).docx
- 古罗马法与社会秩序.docx
- 合同无权代理效力认定.docx
- 合同约定解除条款效力.docx
- 银行资本结构与系统性风险.docx
- 2025年国际风险管理师(PRM)考试题库(附答案和详细解析)(1003).docx
- 2025年执业医师资格考试考试题库(附答案和详细解析)(1003).docx
最近下载
- 蔬菜西甜瓜种子生产技术 种子生产技术、蔬菜西甜瓜种子生产技术 菜豆种子生产技术.pptx VIP
- 《建筑防火通用规范GB 55037-2022》解读与培训.pptx VIP
- 纳米科技概论-第二章纳米材料-表征(结构)解析.ppt VIP
- 《DB22T 1721-2012 林业木材加工劳动定额》.pdf
- 2021钉钉数字化管理师正确选择答案汇总 .pdf VIP
- 守正创新实干担当心得体会四篇.docx VIP
- 新视野大学英语(第四版)读写教程3(思政智慧版)外研社编B3U3 Section A.pptx VIP
- 中考语文阅读理解《怀念蛙鼓》含答案.docx VIP
- 医用红外线体温计(额温枪)注册申报资料全套完整模板.docx
- 《自动驾驶出租汽车 第1部分:车辆运营技术要求》.pdf VIP
原创力文档


文档评论(0)