- 0
- 0
- 约9千字
- 约 12页
- 2026-03-15 发布于上海
- 举报
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是F1分数的定义?
A.精确率与召回率的算术平均值
B.精确率与召回率的调和平均值
C.准确率与召回率的几何平均值
D.精确率与特异度的加权平均值
答案:B
解析:F1分数是精确率(Precision)和召回率(Recall)的调和平均,公式为(F1=2)。算术平均(A)未体现两者的平衡;几何平均(C)和特异度(D)均不符合定义。
处理数据缺失值时,最合理的策略是?
A.直接删除所有含缺失值的样本
B.用全局均值填充所有缺失特征
C.根据业务场景选择填充方法(如中位数、众数或模型预测)
D.忽略缺失值直接建模
答案:C
解析:缺失值处理需结合业务场景:数值型特征可考虑均值/中位数(避免异常值影响),分类型特征用众数,复杂场景可用KNN或回归模型预测填充。直接删除(A)会丢失信息;全局均值(B)忽略特征差异;忽略缺失值(D)会导致模型错误。
以下哪种算法属于生成式模型?
A.逻辑回归
B.支持向量机(SVM)
C.朴素贝叶斯
D.随机森林
答案:C
解析:生成式模型通过学习数据的联合概率分布(P(X,Y))进行预测(如朴素贝叶斯假设特征独立,计算(P(Y|X)P(X|Y)P(Y)))。判别式模型直接学习决策边界(P(Y|X))(逻辑回归、SVM、随机森林均属此类)。
过拟合的典型表现是?
A.训练集和测试集准确率都很低
B.训练集准确率高,测试集准确率低
C.训练集准确率低,测试集准确率高
D.训练集和测试集准确率差异小
答案:B
解析:过拟合时模型过度学习训练集的噪声和细节,导致泛化能力差,表现为训练集性能好(准确率高)但测试集性能差(准确率低)。A是欠拟合,C和D不符合过拟合定义。
特征标准化(Z-score)适用于以下哪种模型?
A.决策树
B.线性回归
C.朴素贝叶斯
D.随机森林
答案:B
解析:线性回归、SVM、神经网络等基于梯度下降的模型对特征尺度敏感,需标准化消除量纲影响。决策树(A)、随机森林(D)通过阈值划分特征,朴素贝叶斯(C)基于概率计算,均不受特征尺度影响。
以下哪项不是混淆矩阵中的指标?
A.真阳性(TP)
B.假阴性(FN)
C.准确率(Accuracy)
D.均方误差(MSE)
答案:D
解析:混淆矩阵包含TP(真阳性)、TN(真阴性)、FP(假阳性)、FN(假阴性),基于此计算准确率、精确率、召回率等。均方误差(MSE)是回归任务的评估指标,与混淆矩阵无关。
以下哪种方法用于解决类别不平衡问题?
A.特征选择
B.过采样(SMOTE)
C.正则化
D.主成分分析(PCA)
答案:B
解析:类别不平衡时,少数类样本易被忽略。过采样(如SMOTE生成少数类样本)或欠采样(减少多数类样本)可平衡类别分布。特征选择(A)优化特征集,正则化(C)防止过拟合,PCA(D)降维,均不直接解决类别不平衡。
随机森林中的“随机”不包括以下哪项?
A.随机选择样本(Bootstrap采样)
B.随机选择特征子集
C.随机初始化树的分裂阈值
D.随机生成决策树的结构
答案:C
解析:随机森林的随机性体现在:样本Bootstrap采样(A)、特征子集随机选择(B)、决策树结构随机(D)。分裂阈值由信息增益/基尼系数等指标确定(非随机),因此C错误。
以下哪项是L1正则化的主要作用?
A.防止过拟合,产生稀疏解
B.防止过拟合,平滑参数
C.加速模型训练
D.提高模型的非线性表达能力
答案:A
解析:L1正则化((L1=|w|))会使部分参数变为0,产生稀疏解(特征选择效果);L2正则化((L2=w^2))平滑参数(B)。加速训练(C)依赖优化算法,非线性能力(D)由模型结构决定。
时间序列建模中,ARIMA模型的“MA”代表?
A.自回归(AutoRegressive)
B.移动平均(MovingAverage)
C.差分(Differencing)
D.整合(Integrated)
答案:B
解析:ARIMA(p,d,q)中,p是自回归阶数(AR),d是差分阶数(I),q是移动平均阶数(MA)。移动平均项通过历史误差项建模,因此B正确。
二、多项选择题(共10题,每题2分,共20分)
以下属于特征工程的步骤有?()
A.特征提取(如TF-IDF)
B.特征选择(如卡方检验)
C.特征构造(如计算用户消费频率)
D.特征缩放(如归一化)
答案:ABCD
解析:特征工程包括提取(从原始数据生成新特征,如文本的TF-IDF)、选择(过滤冗余特征,如卡方检验)、构造(组合现有特征,如消费频率=总消费/时间)
您可能关注的文档
- 2026年人工智能工程师考试题库(附答案和详细解析)(0114).docx
- 2026年企业内训师认证考试题库(附答案和详细解析)(0116).docx
- 2026年公证员资格考试题库(附答案和详细解析)(0121).docx
- 2026年广播电视播音员主持人资格考试题库(附答案和详细解析)(0113).docx
- 2026年注册动画设计师考试题库(附答案和详细解析)(0124).docx
- 2026年注册岩土工程师考试题库(附答案和详细解析)(0115).docx
- 2026年注册岩土工程师考试题库(附答案和详细解析)(0118).docx
- 2026年注册金融数据分析师(CFDA)考试题库(附答案和详细解析)(0116).docx
- 2026年社会心理服务人员考试题库(附答案和详细解析)(0110).docx
- ChatGPT在金融行业的客户服务应用.docx
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
最近下载
- 导数概念及其意义高二下学期数学人教A版(2019)选择性必修第二册.docx VIP
- 无负压供水设备安装施工方案.docx VIP
- 2026年苏州工业园区服务外包职业学院单招职业技能测试题库及参考答案详解.docx VIP
- 道班施工组织设计.doc VIP
- 2025年陕西省西安市碑林区铁一中中考七模物理试卷.doc VIP
- TB-T2075-2002《电气化铁道接触网零部件》.pdf VIP
- 索尼DSC-HX30使用说明书.pdf
- 2026年苏州工业园区服务外包职业学院单招职业技能考试题库有答案解析.docx VIP
- FIDIC白皮书中文版.docx
- 海南省国资委省属国有企业招聘笔试题库2025.pdf VIP
原创力文档

文档评论(0)