2026年高级数据分析师考试题库（附答案和详细解析）（0105）.docxVIP

下载本文档

0
0
约8.43千字
约 12页
2026-01-23 发布于上海
举报

2026年高级数据分析师考试题库（附答案和详细解析）（0105）.docx

高级数据分析师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在分类模型评估中，若关注“实际为正例的样本中被正确预测的比例”，应使用以下哪个指标？

A.准确率（Accuracy）

B.召回率（Recall/TPR）

C.精确率（Precision）

D.F1分数

答案：B

解析：召回率（Recall/TPR）的定义是真阳性（TP）占实际正例（TP+FN）的比例，直接反映模型对正例的覆盖能力；准确率是整体正确预测比例（TP+TN）/(TP+TN+FP+FN)，未区分正负类；精确率是TP占预测正例（TP+FP）的比例，关注预测正例的准确性；F1分数是精确率和召回率的调和平均。

以下哪种特征选择方法属于“嵌入法”？

A.基于卡方检验筛选特征

B.基于随机森林的特征重要性排序

C.通过递归特征消除（RFE）选择特征

D.计算特征与目标变量的相关系数

答案：B

解析：嵌入法在模型训练过程中自动选择特征（如树模型的特征重要性、逻辑回归的L1正则化）；A和D属于过滤法（独立于模型的统计检验）；C属于包装法（基于模型性能的迭代筛选）。

时间序列预测中，ARIMA(p,d,q)模型的“d”参数表示？

A.自回归阶数

B.差分次数

C.移动平均阶数

D.季节周期数

答案：B

解析：ARIMA模型中，p为自回归（AR）阶数，d为差分次数（用于消除非平稳性），q为移动平均（MA）阶数；季节周期数对应SARIMA的参数。

A/B测试中，若实验组与对照组的样本量差异过大，最可能导致？

A.第一类错误（弃真错误）概率升高

B.统计功效（Power）降低

C.效应量（EffectSize）计算偏差

D.置信区间变窄

答案：B

解析：样本量不足或分配不均会降低统计功效（检测到真实差异的能力）；第一类错误由显著性水平（α）控制；效应量是客观差异，与样本量无关；样本量小会导致置信区间变宽。

处理数据倾斜（ClassImbalance）时，以下哪种方法不属于“数据层面”的解决策略？

A.过采样（Oversampling）少数类

B.欠采样（Undersampling）多数类

C.调整模型损失函数（如加权交叉熵）

D.合成新样本（如SMOTE）

答案：C

解析：数据层面策略通过调整样本分布解决倾斜（A、B、D）；模型层面策略通过修改损失函数或评估指标（如C）。

根据贝叶斯定理，P(A|B)=P(B|A)P(A)/P(B)，其中P(A)被称为？

A.后验概率

B.似然概率

C.先验概率

D.边缘概率

答案：C

解析：P(A)是实验前对事件A的先验信念；P(B|A)是似然概率；P(A|B)是后验概率；P(B)是边缘概率（所有可能情况下B发生的概率）。

数据湖（DataLake）与数据仓库（DataWarehouse）的核心区别在于？

A.存储数据的类型（结构化vs非结构化）

B.数据处理的实时性（实时vs批量）

C.数据使用的目的（分析vs事务）

D.数据存储的成本（高vs低）

答案：A

解析：数据湖支持存储结构化、半结构化、非结构化数据（原始格式），数据仓库仅存储结构化数据（经ETL清洗）；B、C、D是两者的衍生差异，非核心。

模型出现过拟合（Overfitting）时，最典型的表现是？

A.训练集和测试集误差都很高

B.训练集误差低，测试集误差高

C.训练集误差高，测试集误差低

D.训练集和测试集误差都很低

答案：B

解析：过拟合是模型过度学习训练集的噪声，导致泛化能力差，表现为训练误差低但测试误差显著升高；A是欠拟合（Underfitting）的表现。

关联规则挖掘中，“支持度（Support）”的计算公式是？

A.P(后件|前件)

B.P(前件∧后件)

C.P(前件|后件)

D.(精确率×召回率)/(精确率+召回率)

答案：B

解析：支持度是前件和后件同时出现的概率（即两者的交集占总样本的比例）；A是置信度（Confidence）；D是F1分数。

因果推断中，“工具变量（InstrumentalVariable）”的作用是？

A.控制混淆变量

B.解决选择偏差

C.替代无法观测的变量

D.增强变量间的相关性

答案：B

解析：工具变量通过与自变量相关但与误差项无关的特性，解决自变量与误差项相关导致的内生性问题（如选择偏差）；A通过匹配或分层实现；C是代理变量的作用。

二、多项选择题（共10题，每题2分，共20分）（每题至少2个正确选项）

数据清洗的核心任务包括？

A.处理缺失值（如删除、插补）

B.纠正格式错误（如日期格式统一）

C.消除重复数据（如识别完全重复记录）

D.特征标准化（如Z-score归一化）

答案：ABC

解析：数据清洗关注原始数据的质量

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年高级数据分析师考试题库（附答案和详细解析）（0105）.docxVIP