- 1
- 0
- 约7.01千字
- 约 11页
- 2026-02-12 发布于上海
- 举报
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是处理缺失值的合理策略?
A.直接删除所有含缺失值的样本
B.对所有数值型特征用均值填充
C.根据业务场景选择删除、填充或建模处理
D.对所有类别型特征用众数填充
答案:C
解析:缺失值处理需结合业务场景:直接删除(样本量充足时)、填充(均值/中位数/众数或模型预测)、建模(将缺失作为独立类别)。A可能丢失关键信息;B忽略特征分布(如偏态分布用中位数更合适);D未考虑缺失模式(如缺失可能隐含业务含义)。
评估分类模型时,F1-score主要反映以下哪对指标的平衡?
A.准确率与召回率
B.精确率与召回率
C.精确率与准确率
D.召回率与特异度
答案:B
解析:F1-score是精确率(Precision)和召回率(Recall)的调和平均数,公式为(F1=2),用于平衡两者的重要性。准确率是整体正确比例,特异度是负类正确识别率,均不直接参与F1计算。
以下哪种情况最可能导致模型过拟合?
A.训练数据量远大于测试数据量
B.模型复杂度低且特征数量少
C.训练集准确率95%,测试集准确率60%
D.对特征进行标准化处理
答案:C
解析:过拟合表现为模型在训练集效果好但泛化能力差(测试集效果显著下降)。A不直接导致过拟合;B是欠拟合特征;D是常规预处理,降低模型对尺度的敏感。
特征分箱(Binning)的主要目的是?
A.增加特征维度
B.消除特征噪声,提升模型稳定性
C.减少计算复杂度
D.提高特征的稀疏性
答案:B
解析:分箱通过将连续特征离散化为区间,可降低噪声影响(如异常值)、捕捉非线性关系,并提升模型对数据波动的鲁棒性。A错误(分箱减少维度);C是降维的目的;D是独热编码的效果。
L2正则化的主要作用是?
A.使模型权重稀疏化
B.防止模型过拟合
C.加速梯度下降收敛
D.解决类别不平衡问题
答案:B
解析:L2正则化通过在损失函数中添加权重平方和((w^2)),惩罚大权重,限制模型复杂度,从而防止过拟合。A是L1正则化的作用;C是优化器(如动量梯度下降)的功能;D需通过采样或调整类别权重解决。
时间序列建模中,ARIMA(p,d,q)的“d”参数表示?
A.自回归阶数
B.差分次数
C.移动平均阶数
D.季节周期长度
答案:B
解析:ARIMA模型中,p是自回归(AR)阶数,d是差分次数(用于消除非平稳性),q是移动平均(MA)阶数。季节周期长度由SARIMA的参数s表示。
以下哪种算法属于无监督学习?
A.逻辑回归
B.K-means聚类
C.随机森林
D.XGBoost
答案:B
解析:无监督学习无标签数据,K-means通过数据点间距聚类。A、C、D均需标签训练(监督学习)。
数据建模流程中,“特征重要性分析”通常在哪个阶段进行?
A.数据清洗
B.模型训练
C.模型评估
D.特征工程
答案:B
解析:特征重要性分析(如树模型的Gini重要性、线性模型的系数)通常在模型训练后,用于验证特征有效性,指导特征选择或业务解释。
处理类别不平衡数据时,以下哪项策略不合理?
A.对少数类进行过采样(Oversampling)
B.对多数类进行欠采样(Undersampling)
C.调整模型损失函数的类别权重
D.直接删除少数类样本
答案:D
解析:直接删除少数类会丢失关键信息,导致模型忽略少数类模式。A、B、C均为常见平衡策略(需注意过采样可能导致过拟合,欠采样可能丢失信息)。
以下哪项不是模型部署前需要验证的内容?
A.模型推理速度
B.数据输入格式兼容性
C.训练集与生产数据分布一致性
D.模型在训练集上的准确率
答案:D
解析:部署前需验证模型在生产环境的表现(推理速度、输入兼容性、数据分布一致性),训练集准确率仅反映拟合能力,无法说明泛化性。
二、多项选择题(共10题,每题2分,共20分)
数据清洗的主要内容包括?(至少2个正确选项)
A.处理缺失值
B.识别并修正异常值
C.去除重复样本
D.对特征进行标准化
答案:ABC
解析:数据清洗针对“脏数据”(缺失、异常、重复);D属于数据变换(预处理步骤),非清洗范畴。
以下属于分类任务评估指标的有?
A.均方误差(MSE)
B.精确率(Precision)
C.ROC-AUC
D.决定系数(R2)
答案:BC
解析:分类评估指标包括精确率、召回率、F1、ROC-AUC等;MSE和R2是回归任务指标。
特征选择的常用方法包括?
A.过滤法(Filter):基于统计量筛选
B.包装法(Wrapper):基于模型性能筛选
C.嵌入法(Embedded):模型内置特征选择
D.
原创力文档

文档评论(0)