- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是数据清洗中处理缺失值的合理策略?
A.统一用均值填充所有数值型缺失值
B.直接删除包含缺失值的整行数据
C.根据业务场景选择插值法或删除策略
D.对缺失值列进行随机数填充
答案:C
解析:缺失值处理需结合业务场景:如年龄缺失可能用中位数填充(避免极端值影响),而用户收入缺失若比例超过50%可能直接删除列。选项A未考虑不同特征的分布差异(如偏态分布用均值不合理),选项B可能导致数据量大量损失,选项D随机填充会引入噪声,均不科学。
评估分类模型时,若关注“正样本被正确识别的比例”,应选择以下哪个指标?
A.准确率(Accuracy)
B.精确率(Precision)
C.召回率(Recall)
D.F1分数
答案:C
解析:召回率(Recall)=真阳性/(真阳性+假阴性),反映正样本的覆盖能力。准确率是整体正确比例(含正负样本),精确率是“预测为正且正确”的比例,F1是精确率与召回率的调和平均,均不符合题干要求。
以下哪种算法属于监督学习?
A.K-means聚类
B.主成分分析(PCA)
C.决策树分类
D.关联规则挖掘(Apriori)
答案:C
解析:监督学习需要标签数据,决策树分类通过训练数据(特征+标签)学习分类规则。K-means(无监督聚类)、PCA(无监督降维)、Apriori(无监督关联分析)均不依赖标签。
为解决模型过拟合问题,以下哪种方法不适用?
A.增加正则化参数λ
B.减少特征数量
C.增加训练数据量
D.提高模型复杂度(如增加决策树深度)
答案:D
解析:过拟合是模型对训练数据过度学习,泛化能力差。提高模型复杂度(如更深的树)会加剧过拟合;其他选项:正则化(限制模型复杂度)、减少特征(降低维度)、增加数据(提供更多泛化信息)均可缓解过拟合。
在特征工程中,“将连续变量‘年龄’划分为‘0-18’‘19-35’‘36+’”属于哪种操作?
A.特征分箱
B.特征缩放
C.特征交叉
D.特征编码
答案:A
解析:特征分箱是将连续变量离散化为区间,降低噪声影响;特征缩放(如归一化)是调整数值范围,特征交叉(如年龄×收入)是生成新特征,特征编码(如独热编码)是处理类别变量。
以下哪项是衡量回归模型预测误差的指标?
A.ROC曲线
B.均方误差(MSE)
C.混淆矩阵
D.基尼系数
答案:B
解析:均方误差(MSE)=平均(预测值-真实值)2,是回归任务的常用误差指标。ROC曲线(分类)、混淆矩阵(分类)、基尼系数(决策树分裂准则)均不适用回归。
训练逻辑回归模型时,若出现“梯度消失”,最可能的原因是?
A.学习率设置过大
B.特征未进行标准化
C.迭代次数不足
D.标签数据存在大量缺失
答案:B
解析:逻辑回归基于线性模型,特征尺度差异大(如年龄[0-100]与收入[0-1e6])会导致梯度计算时某些特征的权重更新被抑制,标准化(如Z-score)可解决此问题。学习率过大可能导致震荡,迭代次数不足会欠拟合,标签缺失属于数据质量问题。
以下哪种场景适合使用随机森林模型?
A.高维稀疏文本数据分类(如新闻分类)
B.实时在线预测(如广告点击率预估)
C.需要解释特征重要性的业务(如信贷风控)
D.小样本量的医学影像诊断
答案:C
解析:随机森林通过特征在树中的分裂贡献度可输出特征重要性,适合需要可解释性的场景。高维稀疏数据更适合逻辑回归(计算效率高),实时预测需要低时延模型(如线性模型),小样本易过拟合(随机森林需要一定数据量)。
以下关于交叉验证的描述,正确的是?
A.留一法(LOOCV)适用于大数据集
B.K折交叉验证的K值越大,计算成本越低
C.分层交叉验证用于解决类别不平衡问题
D.交叉验证的目的是提高模型准确率
答案:C
解析:分层交叉验证在划分折时保持类别比例与原数据一致,避免某折中某类别缺失。留一法计算成本高(n次训练),不适合大数据;K越大(如K=10比K=5)计算成本越高;交叉验证的目的是评估模型泛化能力,而非提高准确率。
以下哪项不属于模型部署阶段的关键任务?
A.模型性能监控
B.模型版本管理
C.特征工程代码优化
D.推理服务接口开发
答案:C
解析:模型部署阶段关注模型上线后的服务化(接口开发)、运维(性能监控、版本管理)。特征工程属于训练阶段任务,部署阶段通常复用训练时的特征处理逻辑。
二、多项选择题(共10题,每题2分,共20分)
数据建模中,“特征工程”的核心任务包括()
A.特征选择(筛选有效特征)
B.特征生成(构造新特征)
C.特征缩放(标准化/归一化)
D.模型超参数调优
答案:ABC
解析:特征工程是对
原创力文档


文档评论(0)