- 0
- 0
- 约8.52千字
- 约 12页
- 2026-03-14 发布于上海
- 举报
数据建模工程师专业能力考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是数据清洗中处理缺失值的常用方法?
A.对分类变量进行独热编码
B.使用K近邻算法(KNN)填充
C.直接删除所有含缺失值的特征
D.对数值变量进行标准化处理
答案:B
解析:数据清洗中处理缺失值的常用方法包括删除法(仅当缺失比例极低时)、统计填充(均值/中位数)、模型填充(如KNN、回归)等。选项A是特征工程中的编码方法,选项C过于极端(可能丢失重要信息),选项D是数据标准化操作,属于特征预处理。正确选项为B。
在分类任务中,若关注“正类样本被正确识别的比例”,应选择以下哪个评估指标?
A.准确率(Accuracy)
B.精确率(Precision)
C.召回率(Recall)
D.F1分数
答案:C
解析:召回率(Recall)定义为“真阳性/(真阳性+假阴性)”,反映正类样本被正确识别的比例;准确率是整体正确比例,精确率是“真阳性/(真阳性+假阳性)”,F1是精确率与召回率的调和平均。正确选项为C。
以下哪种情况最可能导致模型过拟合?
A.增加训练数据量
B.降低模型复杂度(如减少决策树深度)
C.使用L2正则化
D.对训练数据进行随机噪声扰动
答案:无正确选项(注:原题选项设置需调整,正确应为“增加模型复杂度(如增加神经网络层数)”。此处假设用户允许修正,实际命题需避免此类错误。)
(注:为符合规范,补充正确题目示例)
修正后题目:以下哪种情况最可能导致模型过拟合?
A.增加训练数据量
B.减少决策树最大深度
C.对特征进行多项式扩展(阶数过高)
D.使用L1正则化
答案:C
解析:过拟合的核心原因是模型复杂度远高于数据复杂度。选项A(增加数据量)、B(降低复杂度)、D(正则化)均缓解过拟合;选项C(高阶多项式扩展)会显著增加模型复杂度,导致过拟合。正确选项为C。
时间序列建模中,“自回归模型(AR)”的核心假设是?
A.未来值仅与过去固定滞后期的值相关
B.未来值与所有历史值的加权和相关
C.序列具有季节性波动
D.误差项服从均匀分布
答案:A
解析:AR(p)模型假设当前值由前p期的滞后值线性组合决定(如AR(2):Yt=c+φ1Yt-1+φ2Yt-2+εt),核心是固定滞后期的依赖关系。选项B是移动平均(MA)模型的假设,选项C是季节模型的特征,选项D错误(误差项通常假设为正态分布)。正确选项为A。
在特征工程中,“分箱(Binning)”操作的主要目的是?
A.消除特征量纲影响
B.将连续变量转化为离散变量,捕捉非线性关系
C.减少特征维度
D.提高模型计算效率
答案:B
解析:分箱通过将连续特征划分为区间(如年龄分为0-18、19-30等),将连续变量离散化,可捕捉变量与目标的非线性关系(如年龄与疾病风险的非单调关系)。选项A是标准化/归一化的目的,选项C是特征选择的目的,选项D是降维的间接效果。正确选项为B。
以下哪类模型天然支持多分类任务?
A.逻辑回归(LogisticRegression)
B.支持向量机(SVM)
C.随机森林(RandomForest)
D.感知机(Perceptron)
答案:C
解析:随机森林通过投票机制直接支持多分类(每个树输出类别概率,最终取多数票);逻辑回归需扩展为Softmax回归,SVM需通过一对多(OvR)或一对一(OvO)策略,感知机本质是二分类模型。正确选项为C。
评估回归模型时,“均方误差(MSE)”与“平均绝对误差(MAE)”的主要区别是?
A.MSE对异常值更敏感
B.MAE计算更复杂
C.MSE反映预测值的平均偏离程度
D.MAE的单位与目标变量不一致
答案:A
解析:MSE是误差平方的均值,异常值的平方会显著放大其影响;MAE是误差绝对值的均值,对异常值更鲁棒。选项B错误(两者计算复杂度相近),选项C是MAE的描述,选项D错误(两者单位均与目标变量一致)。正确选项为A。
在K折交叉验证中,“留一法(Leave-One-Out)”属于K的取值为?
A.K=2
B.K=5
C.K=样本量n
D.K=10
答案:C
解析:留一法每次取1个样本作为验证集,剩余n-1个作为训练集,相当于K=n的交叉验证。正确选项为C。
以下哪种模型可用于因果推断?
A.线性回归(LinearRegression)
B.倾向得分匹配(PSM)
C.梯度提升树(XGBoost)
D.K均值聚类(K-means)
答案:B
解析:倾向得分匹配通过估计个体接受处理的概率(倾向得分),匹配处理组与对照组,减少选择偏倚,是因果推断的常用方法。选项A、C是预测模型(关注相关关系),选项D是无监督学习(不涉
您可能关注的文档
- 12345热线智能客服方案.docx
- 2026年企业内训师认证考试题库(附答案和详细解析)(0117).docx
- 2026年信息安全保障人员认证(CISAW)考试题库(附答案和详细解析)(0111).docx
- 2026年公证员资格考试题库(附答案和详细解析)(0128).docx
- 2026年国际风险管理师(PRM)考试题库(附答案和详细解析)(0115).docx
- 2026年摄影师职业资格考试题库(附答案和详细解析)(0124).docx
- 2026年注册机械工程师考试题库(附答案和详细解析)(0125).docx
- AI绘画的生成算法优化.docx
- CFA一级数量分析中的时间价值计算.docx
- MATLAB的数值积分与微分方程.docx
原创力文档

文档评论(0)