- 0
- 0
- 约8.63千字
- 约 11页
- 2026-01-21 发布于上海
- 举报
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种数据预处理方法最适合处理非线性关系中的缺失值?
A.直接删除缺失值样本
B.使用特征均值填补缺失值
C.使用随机森林模型预测填补缺失值
D.使用中位数填补缺失值
答案:C
解析:随机森林填补法通过利用其他特征与目标特征的非线性关系预测缺失值,适用于存在复杂关联的数据场景(正确)。直接删除(A)会损失信息;均值/中位数填补(B、D)仅适用于线性关系或分布均匀的场景,无法捕捉非线性关联(错误)。
在分类任务中,若正负样本比例为1:100(正样本少),最不适合的评估指标是?
A.准确率(Accuracy)
B.F1分数(F1-score)
C.ROC-AUC
D.召回率(Recall)
答案:A
解析:准确率在类别极不平衡时会被多数类主导(如全预测为负样本时准确率可达99%),无法反映模型对少数类的识别能力(正确)。F1、ROC-AUC、召回率均能关注少数类表现(B、C、D错误)。
以下哪项不属于正则化的主要目的?
A.防止过拟合
B.降低模型复杂度
C.提高模型泛化能力
D.加速模型训练速度
答案:D
解析:正则化通过添加惩罚项限制模型复杂度(如L1/L2正则),核心目标是防止过拟合、提升泛化能力(A、B、C正确)。加速训练速度通常通过优化算法(如Adam)或硬件实现(D错误)。
特征工程中,“将连续特征按分位数划分为离散区间”属于?
A.特征选择
B.特征离散化
C.特征标准化
D.特征交叉
答案:B
解析:分位数分箱是典型的离散化方法,将连续值转换为类别型特征(正确)。特征选择是筛选重要特征(A);标准化是缩放数据范围(C);交叉是组合多个特征(D错误)。
以下哪种集成学习方法通过串行训练基模型,重点修正前序模型的错误?
A.Bagging(如随机森林)
B.Boosting(如XGBoost)
C.Stacking(堆叠集成)
D.Blending(混合集成)
答案:B
解析:Boosting通过串行训练,每个新模型关注前序模型的错误样本(正确)。Bagging并行训练(A);Stacking/Blending通过元模型融合多模型输出(C、D错误)。
当模型出现过拟合时,以下哪种操作最不有效?
A.增加训练数据量
B.减少模型层数(如深度神经网络)
C.降低学习率(如梯度下降)
D.增加L2正则化系数
答案:C
解析:过拟合的核心是模型复杂度高于数据复杂度,降低学习率主要影响训练速度和收敛性,对复杂度无直接影响(正确)。增加数据、简化模型、增强正则均能缓解过拟合(A、B、D错误)。
时间序列建模中,“季节性”指的是?
A.数据随时间呈现的长期增长或下降趋势
B.数据因周期性事件(如节假日)产生的固定周期波动
C.数据中的随机波动部分
D.数据因外部冲击(如政策变化)产生的突变
答案:B
解析:季节性特指固定周期(如年度、月度)的重复模式(正确)。趋势是长期变化(A);随机波动是噪声(C);突变是异常点(D错误)。
逻辑回归(LogisticRegression)与线性回归的本质区别是?
A.输入特征类型不同
B.损失函数不同
C.输出变量类型不同
D.参数优化方法不同
答案:C
解析:逻辑回归输出二分类概率(离散型),线性回归输出连续值(正确)。两者输入特征类型可相同(A),损失函数(B)和优化方法(D)均为实现手段,非本质区别。
在模型部署阶段,以下哪项不是关键考虑因素?
A.模型推理速度
B.模型可解释性
C.数据隐私保护
D.训练数据规模
答案:D
解析:部署阶段关注模型在生产环境中的性能(推理速度)、合规性(隐私保护)、业务需求(可解释性)(A、B、C正确)。训练数据规模是训练阶段的考虑因素(D错误)。
以下哪项指标最适合评估回归模型的预测误差绝对值?
A.MSE(均方误差)
B.MAE(平均绝对误差)
C.R2(决定系数)
D.RMSE(均方根误差)
答案:B
解析:MAE直接计算预测值与真实值的绝对误差均值,反映误差绝对值大小(正确)。MSE/RMSE对大误差更敏感(A、D);R2衡量模型解释力(C错误)。
二、多项选择题(共10题,每题2分,共20分)
以下属于特征工程中“特征构造”的方法有?
A.对类别特征进行独热编码(One-HotEncoding)
B.将“出生日期”转换为“年龄”
C.计算“订单金额”与“订单数量”的比值(客单价)
D.使用PCA(主成分分析)降维
答案:BC
解析:特征构造是通过现有特征生成新特征(B将日期转为年龄,C计算比值)(正确)。独热编码是特征转换(A),PCA是特征降维(D错误)。
以下哪些情况可能导致模型
您可能关注的文档
- 2025年度时尚封面人物.docx
- 2025年欧盟翻译认证(EUTranslator)考试题库(附答案和详细解析)(1228).docx
- 2025年零信任安全架构师考试题库(附答案和详细解析)(1231).docx
- 2026年国际会议口译资格认证(CIIC)考试题库(附答案和详细解析)(0108).docx
- 2026年新媒体运营师考试题库(附答案和详细解析)(0106).docx
- 2026年普通话水平测试考试题库(附答案和详细解析)(0102).docx
- 2026年老年照护师考试题库(附答案和详细解析)(0105).docx
- 2026年计算机技术与软件专业技术资格(软考)考试题库(附答案和详细解析)(0108).docx
- AI社会控制题库及答案.doc
- Pandas库的数据清洗技巧.docx
原创力文档

文档评论(0)