- 0
- 0
- 约8.12千字
- 约 11页
- 2026-02-10 发布于上海
- 举报
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
在分类任务中,若真实标签为正类的样本被预测为负类,对应的混淆矩阵指标是?
A.真阳性(TP)
B.假阳性(FP)
C.真阴性(TN)
D.假阴性(FN)
答案:D
解析:混淆矩阵中,TP(真阳性)是真实正类被正确预测为正类,FP(假阳性)是真实负类被错误预测为正类,TN(真阴性)是真实负类被正确预测为负类,FN(假阴性)是真实正类被错误预测为负类。因此本题选D。
以下哪种特征编码方法适用于高基数类别特征(如用户ID)?
A.独热编码(One-HotEncoding)
B.标签编码(LabelEncoding)
C.目标编码(TargetEncoding)
D.二进制编码(BinaryEncoding)
答案:C
解析:独热编码对高基数特征会产生维度爆炸问题;标签编码无法捕捉类别与目标的关联;二进制编码通过将类别转换为二进制位减少维度,但目标编码(利用目标变量的统计量编码)更适合高基数特征,能有效保留类别与目标的关联信息,因此选C。
以下哪项是解决模型过拟合的常用方法?
A.增加模型复杂度
B.减少训练数据量
C.添加L2正则化
D.降低学习率
答案:C
解析:过拟合是模型对训练数据过度拟合,泛化能力差。增加模型复杂度(A)、减少训练数据(B)会加剧过拟合;降低学习率(D)主要影响优化速度而非过拟合;L2正则化通过惩罚大权重参数,限制模型复杂度,是解决过拟合的常用方法,因此选C。
评估回归模型时,以下哪个指标对异常值最敏感?
A.均方误差(MSE)
B.平均绝对误差(MAE)
C.R2决定系数
D.中位数绝对误差(MedAE)
答案:A
解析:MSE计算误差的平方,异常值的平方会显著放大误差值;MAE和MedAE使用绝对误差,对异常值的敏感度较低;R2反映模型解释方差的比例,受异常值影响较小。因此选A。
k折交叉验证的主要目的是?
A.加速模型训练
B.减少计算资源消耗
C.评估模型泛化能力
D.选择最优超参数
答案:C
解析:交叉验证通过将数据划分为k个子集,轮流作为验证集,最终取平均性能,能更可靠地评估模型在未见过数据上的表现(泛化能力)。加速训练(A)和减少资源(B)是并行计算或简化模型的目的;选择超参数(D)是网格搜索等方法的目的。因此选C。
以下属于集成学习中“提升(Boosting)”方法的是?
A.随机森林(RandomForest)
B.梯度提升树(GBDT)
C.极端随机树(ExtraTrees)
D.隔离森林(IsolationForest)
答案:B
解析:随机森林和极端随机树是基于“Bagging”的集成方法(并行训练多个弱模型);隔离森林用于异常检测;梯度提升树是“Boosting”方法(串行训练,每轮修正前一轮的错误),因此选B。
特征选择的主要目的是?
A.增加模型复杂度
B.减少冗余特征,降低计算成本
C.提高特征的可解释性
D.B和C
答案:D
解析:特征选择通过去除冗余或无关特征,既降低模型计算成本(减少维度),又保留关键特征以提高可解释性。增加复杂度(A)是特征构造的可能结果,非选择目的。因此选D。
在线学习(OnlineLearning)的核心特点是?
A.一次性处理所有数据
B.模型可增量更新
C.要求数据独立同分布
D.B和C
答案:D
解析:在线学习逐批或逐样本更新模型(增量更新),但要求数据满足独立同分布假设(否则模型会漂移)。一次性处理数据(A)是批量学习的特点。因此选D。
模型部署时,以下哪项是关键步骤?
A.模型压缩(如剪枝、量化)
B.数据预处理代码重写
C.选择开发环境(如JupyterNotebook)
D.A和B
答案:D
解析:模型部署需考虑推理效率(压缩模型)和生产环境与训练环境的一致性(重写预处理代码以避免部署后数据处理不一致)。开发环境(C)是训练阶段的工具,非部署关键。因此选D。
以下哪种场景可能导致数据泄露(DataLeakage)?
A.训练集和测试集使用相同的时间范围
B.对训练集和测试集分别做标准化
C.在特征工程中使用测试集的统计量(如均值)
D.对类别不平衡数据进行过采样
答案:C
解析:数据泄露指测试集信息在训练阶段被模型获取。若特征工程(如标准化)使用测试集的统计量(均值、标准差),会导致训练数据包含测试集信息,模型泛化能力被高估。A是时间序列划分问题,B是正确操作(测试集应使用训练集的统计量),D是解决类别不平衡的合理方法。因此选C。
二、多项选择题(共10题,每题2分,共20分)
数据预处理的主要内容包括()?
A.缺失值处理
B.异常值检测
C.特征构造
D.
您可能关注的文档
- 2026年中医养生保健师考试题库(附答案和详细解析)(0114).docx
- 2026年信用管理师考试题库(附答案和详细解析)(0113).docx
- 2026年咖啡师考试题库(附答案和详细解析)(0120).docx
- 2026年国际财资管理师(CTP)考试题库(附答案和详细解析)(0113).docx
- 2026年安全开发生命周期专家考试题库(附答案和详细解析)(0113).docx
- 2026年智能安防工程师考试题库(附答案和详细解析)(0115).docx
- 2026年注册国际投资分析师(CIIA)考试题库(附答案和详细解析)(0109).docx
- 2026年注册环保工程师考试题库(附答案和详细解析)(0110).docx
- 2026年注册环保工程师考试题库(附答案和详细解析)(0117).docx
- 2026年注册用户体验设计师(UXD)考试题库(附答案和详细解析)(0122).docx
最近下载
- 2026年煤矿企业开工安全第一课讲座课件.pptx
- 02J331 地沟及盖板规范(OCR).pdf VIP
- 山西焦煤集团招聘笔试真题2024.docx VIP
- 广西柳州市2026届高三第一次模拟考试语文试题含答案.doc VIP
- 14K206-金属管道补偿设计与选用图集.pdf VIP
- 全国初中物理竞赛试题专项(浮力计算题)精编(2024版)(附答案)_可搜索.pdf VIP
- ISO9001质量管理体系认证全套文档(完整版).docx VIP
- 人防工程标准预算定额《2013人民防空工程预算定额》..doc VIP
- 精馏塔设备设计与操作规程.docx VIP
- 理化因素所致疾病教案.docx VIP
原创力文档

文档评论(0)