2026年高级数据分析师考试题库（附答案和详细解析）（0121）.docxVIP

下载本文档

0
0
约8.42千字
约 11页
2026-03-07 发布于上海
举报

2026年高级数据分析师考试题库（附答案和详细解析）（0121）.docx

高级数据分析师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在分类模型评估中，当正负样本极度不平衡时，最适合的评估指标是？

A.准确率（Accuracy）

B.F1-score

C.真阳性率（TPR）

D.假阳性率（FPR）

答案：B

解析：准确率在样本不平衡时会因多数类主导而失效（如99%负样本时，全预测负样本准确率仍为99%）；F1-score是精确率（Precision）和召回率（Recall）的调和平均，能综合反映少数类的预测效果，适合不平衡场景；TPR和FPR是ROC曲线的组成部分，但单独使用无法全面评估。

以下哪种特征选择方法基于模型预测能力的重要性计算？

A.卡方检验

B.互信息法

C.随机森林的特征重要性

D.方差阈值法

答案：C

解析：随机森林通过计算特征在树分裂中对不纯度（如Gini指数）的贡献度来评估重要性，属于基于模型的特征选择；卡方检验和互信息法是统计检验方法；方差阈值法仅筛选方差大的特征，不涉及模型预测能力。

处理数据倾斜（如某类别占比90%）时，以下哪种方法不适用？

A.过采样少数类（SMOTE）

B.欠采样多数类

C.调整模型损失函数（如加权交叉熵）

D.增加正则化强度

答案：D

解析：正则化用于防止过拟合，不直接解决数据倾斜问题；过采样、欠采样和调整损失函数权重（如为少数类分配更高损失权重）是处理倾斜的常用方法。

时间序列预测中，ARIMA模型的“MA”部分代表？

A.自回归（AutoRegressive）

B.移动平均（MovingAverage）

C.差分（Differencing）

D.整合（Integrated）

答案：B

解析：ARIMA模型结构为AR(p)-I(d)-MA(q)，其中MA(q)表示移动平均部分，通过过去误差项的线性组合建模；AR(p)是自回归部分，I(d)表示差分阶数。

A/B测试中，原假设（H0）通常表述为？

A.实验组与对照组指标有显著差异

B.实验组与对照组指标无显著差异

C.实验组指标优于对照组

D.实验组指标劣于对照组

答案：B

解析：原假设是统计检验中默认成立的假设，通常为“无差异”；备择假设（H1）为“有差异”。A/B测试通过拒绝H0来证明实验有效。

数据湖（DataLake）与数据仓库（DataWarehouse）的核心区别是？

A.数据湖存储结构化数据，数据仓库存储非结构化数据

B.数据湖在存储时定义模式（Schema-on-Write），数据仓库在使用时定义模式（Schema-on-Read）

C.数据湖支持多类型数据存储（结构化/半结构化/非结构化），数据仓库以结构化数据为主

D.数据湖仅用于分析，数据仓库用于事务处理

答案：C

解析：数据湖支持多类型数据存储（如日志、文档、表格），采用Schema-on-Read（使用时定义模式）；数据仓库以结构化数据为主（如关系型数据库表），采用Schema-on-Write（存储前定义模式）。A、B、D均表述错误。

决策树分裂时，信息增益（InformationGain）基于以下哪个指标计算？

A.基尼系数（GiniIndex）

B.熵（Entropy）

C.均方误差（MSE）

D.似然比（LikelihoodRatio）

答案：B

解析：信息增益=父节点熵-子节点加权熵，用于衡量分裂后不确定性的减少；基尼系数是CART算法的分裂指标；MSE用于回归树；似然比常见于统计检验。

以下哪种异常检测方法适用于高维稀疏数据？

A.基于距离的方法（如K近邻）

B.基于密度的方法（如DBSCAN）

C.孤立森林（IsolationForest）

D.统计方法（如Z-score）

答案：C

解析：高维稀疏数据中，距离和密度计算易失效（维度诅咒）；孤立森林通过随机划分特征空间隔离异常点，对高维数据鲁棒；Z-score依赖正态分布假设，不适用于稀疏数据。

朴素贝叶斯分类器的“朴素”假设是？

A.特征之间相互独立

B.类别服从均匀分布

C.特征服从正态分布

D.样本量足够大

答案：A

解析：朴素贝叶斯假设各特征在给定类别下条件独立，简化了联合概率计算；其他选项是特定场景的假设（如高斯朴素贝叶斯假设特征正态分布），非核心“朴素”假设。

关联规则挖掘中，“支持度（Support）”的计算公式是？

A.包含项集X和Y的事务数/总事务数

B.包含项集X的事务中包含Y的比例

C.（支持度(X∪Y)）/（支持度(X)*支持度(Y)）

D.（支持度(X∪Y)）/支持度(X)

答案：A

解析：支持度衡量项集出现的频繁程度，定义为同时包含X和Y的事务数占总事务数的比例；B是置信度（Confidence）；C是提升度（Lift）；

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年高级数据分析师考试题库（附答案和详细解析）（0121）.docxVIP