- 0
- 0
- 约7.91千字
- 约 11页
- 2026-01-18 发布于上海
- 举报
数据建模工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
在分类模型评估中,F1分数的计算基于以下哪两个指标的调和平均?
A.准确率(Accuracy)和精确率(Precision)
B.精确率(Precision)和召回率(Recall)
C.召回率(Recall)和FPR(假正率)
D.FPR(假正率)和TPR(真正率)
答案:B
解析:F1分数是精确率(Precision)和召回率(Recall)的调和平均,公式为(F1=2)。A选项的准确率是整体正确分类比例,不直接影响F1;C和D涉及的FPR/TPR是ROC曲线的指标,与F1无关。
以下哪种数据预处理方法适用于消除特征间量纲差异,但不会改变数据分布形态?
A.归一化(Min-MaxScaling)
B.标准化(Z-ScoreNormalization)
C.对数变换(LogTransformation)
D.分箱(Binning)
答案:B
解析:标准化通过(z=)将数据转换为均值为0、标准差为1的分布,仅调整量纲,不改变原分布形态;归一化会将数据压缩到[0,1]区间,可能改变分布范围;对数变换用于处理偏态分布,会改变形态;分箱是离散化操作,与量纲无关。
当模型在训练集上准确率为95%,测试集上准确率为60%时,最可能的问题是?
A.欠拟合(Underfitting)
B.过拟合(Overfitting)
C.数据不平衡(ClassImbalance)
D.特征缺失(FeatureMissing)
答案:B
解析:过拟合的典型表现是模型在训练集上表现优异,但在未见过的测试集上泛化能力差;欠拟合会导致训练集和测试集表现都差;数据不平衡会导致模型偏向多数类,但不会出现训练-测试性能大幅差异;特征缺失可能影响整体性能,但不会特指训练-测试差异。
决策树算法中,ID3算法选择分裂特征的依据是?
A.信息增益(InformationGain)
B.信息增益率(GainRatio)
C.基尼系数(GiniIndex)
D.均方误差(MSE)
答案:A
解析:ID3算法基于信息增益选择最优分裂特征;C4.5算法使用信息增益率解决ID3对取值多的特征的偏好问题;CART算法分类任务用基尼系数,回归任务用均方误差。
以下哪项属于特征选择(FeatureSelection)而非特征提取(FeatureExtraction)?
A.主成分分析(PCA)降维
B.计算特征的IV值(信息价值)并筛选
C.用嵌入法(L1正则化)自动筛选特征
D.对类别特征进行独热编码(One-HotEncoding)
答案:B
解析:特征选择是从原有特征中筛选重要特征(如基于IV值筛选);特征提取是通过变换生成新特征(如PCA);C选项的嵌入法本质是模型训练过程中自动选择特征,属于特征选择;D是特征变换,属于特征工程但非选择/提取。
时间序列建模中,ARIMA模型的“MA”代表?
A.自回归(AutoRegressive)
B.移动平均(MovingAverage)
C.差分(Differencing)
D.整合(Integrated)
答案:B
解析:ARIMA的结构为AR(p)(自回归)+I(d)(差分整合)+MA(q)(移动平均),其中MA(q)表示模型误差项的移动平均部分。
以下哪种集成学习方法属于Boosting类?
A.随机森林(RandomForest)
B.GBDT(梯度提升决策树)
C.极端随机树(ExtraTrees)
D.隔离森林(IsolationForest)
答案:B
解析:Boosting方法通过串行训练弱分类器,逐步修正前序模型的错误(如GBDT);Bagging方法(随机森林、极端随机树)通过并行训练多个基模型并投票;隔离森林是无监督异常检测算法,不属于集成学习框架。
以下哪项操作最可能导致数据泄露(DataLeakage)?
A.在训练集上进行标准化后,用相同参数标准化测试集
B.在特征工程中使用测试集的统计量(如均值)处理训练集
C.对类别不平衡数据进行SMOTE过采样时仅作用于训练集
D.用交叉验证划分训练集和验证集
答案:B
解析:数据泄露指测试集信息在训练阶段被不当使用。B选项中用测试集统计量处理训练集,导致训练数据包含测试集信息,模型泛化能力被高估;A是正确操作(使用训练集参数标准化测试集);C和D均为合理步骤。
模型部署到生产环境前,关键的验证步骤不包括?
A.延迟测试(LatencyTest)
B.压力测试(StressTest)
C.概念漂移检测(ConceptDriftDetection)
D.特征重要性分
您可能关注的文档
- 1上午11人确诊癌症晚期医生痛心.docx
- 2025年企业合规师考试题库(附答案和详细解析)(1231).docx
- 2025年供应链管理专业人士考试题库(附答案和详细解析)(1225).docx
- 2025年注册信息系统安全专家(CISSP)考试题库(附答案和详细解析)(1228).docx
- 2026年执业药师资格考试考试题库(附答案和详细解析)(0106).docx
- 2026年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(0103).docx
- 2026年注册验船师考试题库(附答案和详细解析)(0107).docx
- 2026年隐私保护工程师(CIPT)考试题库(附答案和详细解析)(0105).docx
- Python编程试卷及详解.doc
- 《楚辞》“香草美人”象征手法.docx
- 浙江省宁波市2024-2025学年高三下学期高考模拟考试数学试卷(解析版).pdf
- 广东省汕头市潮阳一中明光学校2024-2025学年高二上学期期中考试政治试题(解析版).pdf
- 广东省汕头市潮阳一中明光学校2024-2025学年高三上学期第三阶段考试历史试题(解析版).pdf
- 广东省汕头市澄海区2024-2025学年八年级上学期期末考试英语试题(解析版).pdf
- 浙江省衢州、丽水、湖州三地市2025届高三下学期4月教学质量检测(二模)数学试题(解析版).pdf
- 浙江省绍兴市上虞区2025届高三下学期5月高考及选考适应性考试数学试卷(解析版).pdf
- 广东省汕尾市2023-2024学年三年级上学期英语期末试卷(解析版).docx
- 广东省汕头市澄海区2024-2025学年高二上学期1月期末地理试题(解析版).pdf
- 广东省汕头市澄海区2024-2025学年八年级上学期期末语文试题(解析版).pdf
- 湖北省恩施土家族苗族自治州来凤县2023-2024学年三年级上学期英语期末试卷(解析版).docx
原创力文档

文档评论(0)