- 0
- 0
- 约8.12千字
- 约 11页
- 2026-02-07 发布于上海
- 举报
数据建模工程师考试试卷(总分100分)
一、单项选择题(共10题,每题1分,共10分)
以下哪个指标最适合评估不均衡分类数据的模型性能?
A.准确率(Accuracy)
B.F1分数(F1-score)
C.均方误差(MSE)
D.调整R方(AdjustedR2)
答案:B
解析:不均衡数据中,准确率会因多数类主导而失真(如99%负样本时,全预测负样本准确率99%但无意义);F1分数综合了精确率和召回率,更关注少数类表现;MSE用于回归任务,AdjustedR2用于线性回归模型拟合度评估。因此选B。
若模型在训练集上表现很好(准确率95%),但测试集上表现差(准确率60%),最可能的原因是?
A.欠拟合(Underfitting)
B.过拟合(Overfitting)
C.数据泄露(DataLeakage)
D.特征缺失(FeatureMissing)
答案:B
解析:过拟合指模型过度学习训练集的噪声和细节,导致泛化能力差,训练集与测试集性能差距大;欠拟合表现为训练集和测试集性能均差;数据泄露是测试集信息提前进入训练过程,通常表现为异常高的测试集性能;特征缺失可能导致模型无法捕捉关键模式,但不会仅导致测试集性能骤降。故选B。
以下哪种算法属于生成式模型?
A.逻辑回归(LogisticRegression)
B.支持向量机(SVM)
C.朴素贝叶斯(NaiveBayes)
D.随机森林(RandomForest)
答案:C
解析:生成式模型通过学习数据的联合概率分布P(X,Y)进行分类(如朴素贝叶斯假设特征独立,计算P(Y|X)=P(X|Y)P(Y)/P(X));判别式模型直接学习决策边界P(Y|X)(如逻辑回归、SVM、随机森林)。故选C。
对类别特征“颜色”(红、蓝、绿)进行编码时,最合理的方法是?
A.标签编码(LabelEncoding)
B.独热编码(One-HotEncoding)
C.目标编码(TargetEncoding)
D.标准化(Standardization)
答案:B
解析:类别特征无顺序关系(颜色是名义变量),标签编码会错误引入顺序(如红=1、蓝=2、绿=3);独热编码将每个类别转为二值向量(3类生成3列0-1变量),避免顺序问题;目标编码依赖目标变量,可能导致过拟合;标准化用于数值特征。故选B。
以下哪项不是集成学习(EnsembleLearning)的典型方法?
A.装袋(Bagging)
B.提升(Boosting)
C.堆叠(Stacking)
D.聚类(Clustering)
答案:D
解析:集成学习通过组合多个基模型提升性能,包括Bagging(如随机森林)、Boosting(如XGBoost)、Stacking(元模型融合);聚类是无监督学习任务,目标是分组数据,不属于集成方法。故选D。
在时间序列预测中,若数据存在季节性(如季度性波动),最关键的预处理步骤是?
A.差分处理(Differencing)
B.季节性分解(SeasonalDecomposition)
C.标准化(Standardization)
D.主成分分析(PCA)
答案:B
解析:季节性分解可分离趋势项、季节项和残差项,帮助模型捕捉周期性模式;差分用于消除趋势(如一阶差分消除线性趋势),但无法直接处理季节性;标准化仅调整量纲;PCA用于降维,不针对季节性。故选B。
以下哪个指标用于衡量回归模型的预测误差?
A.ROC曲线(ROCCurve)
B.混淆矩阵(ConfusionMatrix)
C.平均绝对误差(MAE)
D.精确率(Precision)
答案:C
解析:MAE(MeanAbsoluteError)是回归任务的常用误差指标,计算预测值与真实值的绝对差平均;ROC曲线、混淆矩阵、精确率均用于分类任务。故选C。
当使用K近邻(KNN)算法时,若K值过大,最可能导致?
A.模型复杂度增加
B.对噪声更敏感
C.决策边界更平滑
D.过拟合风险提高
答案:C
解析:KNN中K值增大时,模型会考虑更多邻居,决策边界由局部数据主导转为全局平均,因此更平滑;K值过大会降低模型复杂度(欠拟合),对噪声更不敏感(因噪声影响被平均),过拟合风险降低。故选C。
以下哪项是特征选择(FeatureSelection)的主要目的?
A.增加模型可解释性
B.减少计算成本
C.避免维度灾难
D.以上都是
答案:D
解析:特征选择通过剔除冗余/无关特征,可提升模型可解释性(保留关键特征)、减少训练和预测的计算成本(低维数据)、缓解维度灾难(高维空间中数据稀疏性问题)。故选D。
在神经网络中,ReLU激活函数的主要优点是?
A.避免
您可能关注的文档
- 2025年注册农业工程师考试题库(附答案和详细解析)(1113).docx
- 2025年注册测量师考试题库(附答案和详细解析)(1230).docx
- 2025年职业生涯规划师考试题库(附答案和详细解析)(1229).docx
- 2026年会计专业技术资格考试题库(附答案和详细解析)(0109).docx
- 2026年工业互联网工程师考试题库(附答案和详细解析)(0111).docx
- 2026年注册翻译专业资格(CATTI)考试题库(附答案和详细解析)(0110).docx
- 2026年注册资产管理师(CAMA)考试题库(附答案和详细解析)(0109).docx
- 2026年老年照护师考试题库(附答案和详细解析)(0108).docx
- 5G+工业互联网的设备远程运维技术方案.docx
- AI大模型在医疗影像中的准确率优化.docx
- 中国国家标准 GB/Z 37551.300-2026海洋能 波浪能、潮流能及其他水流能转换装置 第300部分:河流能转换装置发电性能评估.pdf
- GB/T 44937.3-2025集成电路 电磁发射测量 第3部分:辐射发射测量 表面扫描法.pdf
- 中国国家标准 GB/T 44937.3-2025集成电路 电磁发射测量 第3部分:辐射发射测量 表面扫描法.pdf
- 《GB/T 44937.3-2025集成电路 电磁发射测量 第3部分:辐射发射测量 表面扫描法》.pdf
- 中国国家标准 GB/T 44937.1-2025集成电路 电磁发射测量 第1部分:通用条件和定义.pdf
- GB/T 44937.1-2025集成电路 电磁发射测量 第1部分:通用条件和定义.pdf
- 《GB/T 44937.1-2025集成电路 电磁发射测量 第1部分:通用条件和定义》.pdf
- 中国国家标准 GB/T 4937.37-2025半导体器件 机械和气候试验方法 第37部分:采用加速度计的板级跌落试验方法.pdf
- 《GB/T 4937.10-2025半导体器件 机械和气候试验方法 第10部分:机械冲击 器件和组件》.pdf
- 中国国家标准 GB/T 44937.2-2025集成电路 电磁发射测量 第2部分:辐射发射测量TEM小室和宽带TEM小室法.pdf
原创力文档

文档评论(0)