2026年高级数据分析师考试题库(附答案和详细解析)(0105).docxVIP

  • 0
  • 0
  • 约8.43千字
  • 约 12页
  • 2026-01-23 发布于上海
  • 举报

2026年高级数据分析师考试题库(附答案和详细解析)(0105).docx

高级数据分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在分类模型评估中,若关注“实际为正例的样本中被正确预测的比例”,应使用以下哪个指标?

A.准确率(Accuracy)

B.召回率(Recall/TPR)

C.精确率(Precision)

D.F1分数

答案:B

解析:召回率(Recall/TPR)的定义是真阳性(TP)占实际正例(TP+FN)的比例,直接反映模型对正例的覆盖能力;准确率是整体正确预测比例(TP+TN)/(TP+TN+FP+FN),未区分正负类;精确率是TP占预测正例(TP+FP)的比例,关注预测正例的准确性;F1分数是精确率和召回率的调和平均。

以下哪种特征选择方法属于“嵌入法”?

A.基于卡方检验筛选特征

B.基于随机森林的特征重要性排序

C.通过递归特征消除(RFE)选择特征

D.计算特征与目标变量的相关系数

答案:B

解析:嵌入法在模型训练过程中自动选择特征(如树模型的特征重要性、逻辑回归的L1正则化);A和D属于过滤法(独立于模型的统计检验);C属于包装法(基于模型性能的迭代筛选)。

时间序列预测中,ARIMA(p,d,q)模型的“d”参数表示?

A.自回归阶数

B.差分次数

C.移动平均阶数

D.季节周期数

答案:B

解析:ARIMA模型中,p为自回归(AR)阶数,d为差分次数(用于消除非平稳性),q为移动平均(MA)阶数;季节周期数对应SARIMA的参数。

A/B测试中,若实验组与对照组的样本量差异过大,最可能导致?

A.第一类错误(弃真错误)概率升高

B.统计功效(Power)降低

C.效应量(EffectSize)计算偏差

D.置信区间变窄

答案:B

解析:样本量不足或分配不均会降低统计功效(检测到真实差异的能力);第一类错误由显著性水平(α)控制;效应量是客观差异,与样本量无关;样本量小会导致置信区间变宽。

处理数据倾斜(ClassImbalance)时,以下哪种方法不属于“数据层面”的解决策略?

A.过采样(Oversampling)少数类

B.欠采样(Undersampling)多数类

C.调整模型损失函数(如加权交叉熵)

D.合成新样本(如SMOTE)

答案:C

解析:数据层面策略通过调整样本分布解决倾斜(A、B、D);模型层面策略通过修改损失函数或评估指标(如C)。

根据贝叶斯定理,P(A|B)=P(B|A)P(A)/P(B),其中P(A)被称为?

A.后验概率

B.似然概率

C.先验概率

D.边缘概率

答案:C

解析:P(A)是实验前对事件A的先验信念;P(B|A)是似然概率;P(A|B)是后验概率;P(B)是边缘概率(所有可能情况下B发生的概率)。

数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别在于?

A.存储数据的类型(结构化vs非结构化)

B.数据处理的实时性(实时vs批量)

C.数据使用的目的(分析vs事务)

D.数据存储的成本(高vs低)

答案:A

解析:数据湖支持存储结构化、半结构化、非结构化数据(原始格式),数据仓库仅存储结构化数据(经ETL清洗);B、C、D是两者的衍生差异,非核心。

模型出现过拟合(Overfitting)时,最典型的表现是?

A.训练集和测试集误差都很高

B.训练集误差低,测试集误差高

C.训练集误差高,测试集误差低

D.训练集和测试集误差都很低

答案:B

解析:过拟合是模型过度学习训练集的噪声,导致泛化能力差,表现为训练误差低但测试误差显著升高;A是欠拟合(Underfitting)的表现。

关联规则挖掘中,“支持度(Support)”的计算公式是?

A.P(后件|前件)

B.P(前件∧后件)

C.P(前件|后件)

D.(精确率×召回率)/(精确率+召回率)

答案:B

解析:支持度是前件和后件同时出现的概率(即两者的交集占总样本的比例);A是置信度(Confidence);D是F1分数。

因果推断中,“工具变量(InstrumentalVariable)”的作用是?

A.控制混淆变量

B.解决选择偏差

C.替代无法观测的变量

D.增强变量间的相关性

答案:B

解析:工具变量通过与自变量相关但与误差项无关的特性,解决自变量与误差项相关导致的内生性问题(如选择偏差);A通过匹配或分层实现;C是代理变量的作用。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

数据清洗的核心任务包括?

A.处理缺失值(如删除、插补)

B.纠正格式错误(如日期格式统一)

C.消除重复数据(如识别完全重复记录)

D.特征标准化(如Z-score归一化)

答案:ABC

解析:数据清洗关注原始数据的质量

文档评论(0)

1亿VIP精品文档

相关文档