- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师考试试卷(总分100分)
一、单项选择题(共10题,每题1分,共10分)
以下哪种方法最适合解决模型过拟合问题?
A.增加训练数据量
B.减少特征数量
C.降低学习率
D.增加模型复杂度
答案:A
解析:过拟合的本质是模型对训练数据过度学习,泛化能力差。增加训练数据量(A)可提升模型泛化能力,是最直接的解决方法。减少特征数量(B)可能丢失关键信息;降低学习率(C)影响收敛速度而非过拟合;增加模型复杂度(D)会加剧过拟合。
在二分类任务中,若真实正类为100个,模型预测正类为80个,其中60个正确,则精确率(Precision)为?
A.60%
B.75%
C.66.67%
D.80%
答案:B
解析:精确率=正确预测的正类数/预测为正类的总数=60/80=75%(B)。A是召回率(60/100),C是F1分数(2(60/80)(60/100)/(60/80+60/100)),D是预测正类的比例,均错误。
以下属于监督学习的是?
A.K-means聚类
B.主成分分析(PCA)
C.支持向量机(SVM)
D.关联规则挖掘
答案:C
解析:监督学习需要标签数据,SVM(C)用于分类/回归,属于监督学习。K-means(A)、PCA(B)、关联规则(D)均为无监督学习。
交叉验证的主要目的是?
A.加速模型训练
B.评估模型泛化能力
C.选择最优特征
D.减少计算资源消耗
答案:B
解析:交叉验证通过多次划分训练集和验证集,更稳定地评估模型在未见过数据上的表现(泛化能力),故B正确。其他选项均非交叉验证的核心目的。
线性回归模型中,通常使用的损失函数是?
A.交叉熵损失
B.均方误差(MSE)
C.铰链损失(HingeLoss)
D.指数损失
答案:B
解析:线性回归是回归任务,目标是最小化预测值与真实值的平方差,故使用MSE(B)。交叉熵(A)用于分类,铰链损失(C)用于SVM,指数损失(D)用于AdaBoost。
以下哪种梯度下降方法计算量最小?
A.批量梯度下降(BGD)
B.随机梯度下降(SGD)
C.小批量梯度下降(MBGD)
D.动量梯度下降(Momentum)
答案:B
解析:SGD(B)每次仅用1个样本计算梯度,计算量最小。BGD(A)用全部样本,计算量大;MBGD(C)用部分样本;动量(D)是优化策略,不改变计算量本质。
决策树中,ID3算法的分裂准则是?
A.信息增益
B.信息增益率
C.基尼系数
D.均方误差
答案:A
解析:ID3(A)基于信息增益选择特征;C4.5(B)用信息增益率;CART(C)用基尼系数;回归树(D)用均方误差。
ROC曲线的横轴是?
A.真阳性率(TPR)
B.假阳性率(FPR)
C.精确率(Precision)
D.召回率(Recall)
答案:B
解析:ROC曲线横轴为FPR(1-特异度),纵轴为TPR(召回率),故B正确。
L1正则化的主要作用是?
A.防止过拟合,产生稀疏解
B.防止过拟合,平滑参数
C.加速模型收敛
D.提升模型精度
答案:A
解析:L1正则化通过添加参数绝对值的和作为惩罚项,促使部分参数变为0(稀疏解),同时减少过拟合(A)。L2正则化(B)平滑参数;C是优化器的作用;D与正则化无直接关联。
模型部署时,以下哪个步骤最关键?
A.模型压缩
B.接口设计
C.性能监控
D.数据预处理流程同步
答案:D
解析:模型部署需确保生产环境与训练环境的数据处理一致(D),否则会因数据分布偏移导致性能下降。其他选项(A/B/C)是优化或运维步骤,非最关键。
二、多项选择题(共10题,每题2分,共20分)
数据预处理中,常用的缺失值处理方法有?
A.删除含缺失值的行
B.用均值/中位数填充
C.用KNN算法预测填充
D.直接保留缺失值
答案:ABC
解析:缺失值处理需消除缺失影响,常用方法包括删除(A)、统计值填充(B)、模型预测填充(C)。直接保留(D)会导致模型报错或错误学习,故排除。
以下属于分类模型评估指标的有?
A.R2分数
B.AUC-ROC
C.F1分数
D.均方根误差(RMSE)
答案:BC
解析:分类评估指标包括AUC-ROC(B)、F1分数(C)。R2(A)和RMSE(D)是回归任务指标。
特征工程中,常用的特征构造方法有?
A.特征交叉(FeatureCross)
B.分箱(Binning)
C.主成分分析(PCA)
D.独热编码(One-HotEncoding)
答案:AB
解析:特征构造是生成新特征,交叉(A)和分箱(B)属于构造。PCA(C)是降维,独热编码(D)是特征转换,均非构造。
以下属于集成学习方法的有?
A.随机
您可能关注的文档
- 2025年加拿大注册会计师(CPACanada)考试题库(附答案和详细解析)(1214).docx
- 2025年区块链审计师考试题库(附答案和详细解析)(1212).docx
- 2025年智能安防工程师考试题库(附答案和详细解析)(1216).docx
- 2025年注册交互设计师考试题库(附答案和详细解析)(1205).docx
- 2025年注册公用设备工程师考试题库(附答案和详细解析)(1208).docx
- 2025年注册工业设计师考试题库(附答案和详细解析)(1216).docx
- 2025年注册矿业工程师考试题库(附答案和详细解析)(1207).docx
- 2025年监理工程师考试题库(附答案和详细解析)(1214).docx
- 2025年碳金融分析师考试题库(附答案和详细解析)(1205).docx
- Fama-French五因子模型的中国市场验证.docx
原创力文档


文档评论(0)