2026年高级数据分析师考试题库(附答案和详细解析)(0121).docxVIP

  • 0
  • 0
  • 约8.42千字
  • 约 11页
  • 2026-03-07 发布于上海
  • 举报

2026年高级数据分析师考试题库(附答案和详细解析)(0121).docx

高级数据分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在分类模型评估中,当正负样本极度不平衡时,最适合的评估指标是?

A.准确率(Accuracy)

B.F1-score

C.真阳性率(TPR)

D.假阳性率(FPR)

答案:B

解析:准确率在样本不平衡时会因多数类主导而失效(如99%负样本时,全预测负样本准确率仍为99%);F1-score是精确率(Precision)和召回率(Recall)的调和平均,能综合反映少数类的预测效果,适合不平衡场景;TPR和FPR是ROC曲线的组成部分,但单独使用无法全面评估。

以下哪种特征选择方法基于模型预测能力的重要性计算?

A.卡方检验

B.互信息法

C.随机森林的特征重要性

D.方差阈值法

答案:C

解析:随机森林通过计算特征在树分裂中对不纯度(如Gini指数)的贡献度来评估重要性,属于基于模型的特征选择;卡方检验和互信息法是统计检验方法;方差阈值法仅筛选方差大的特征,不涉及模型预测能力。

处理数据倾斜(如某类别占比90%)时,以下哪种方法不适用?

A.过采样少数类(SMOTE)

B.欠采样多数类

C.调整模型损失函数(如加权交叉熵)

D.增加正则化强度

答案:D

解析:正则化用于防止过拟合,不直接解决数据倾斜问题;过采样、欠采样和调整损失函数权重(如为少数类分配更高损失权重)是处理倾斜的常用方法。

时间序列预测中,ARIMA模型的“MA”部分代表?

A.自回归(AutoRegressive)

B.移动平均(MovingAverage)

C.差分(Differencing)

D.整合(Integrated)

答案:B

解析:ARIMA模型结构为AR(p)-I(d)-MA(q),其中MA(q)表示移动平均部分,通过过去误差项的线性组合建模;AR(p)是自回归部分,I(d)表示差分阶数。

A/B测试中,原假设(H0)通常表述为?

A.实验组与对照组指标有显著差异

B.实验组与对照组指标无显著差异

C.实验组指标优于对照组

D.实验组指标劣于对照组

答案:B

解析:原假设是统计检验中默认成立的假设,通常为“无差异”;备择假设(H1)为“有差异”。A/B测试通过拒绝H0来证明实验有效。

数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别是?

A.数据湖存储结构化数据,数据仓库存储非结构化数据

B.数据湖在存储时定义模式(Schema-on-Write),数据仓库在使用时定义模式(Schema-on-Read)

C.数据湖支持多类型数据存储(结构化/半结构化/非结构化),数据仓库以结构化数据为主

D.数据湖仅用于分析,数据仓库用于事务处理

答案:C

解析:数据湖支持多类型数据存储(如日志、文档、表格),采用Schema-on-Read(使用时定义模式);数据仓库以结构化数据为主(如关系型数据库表),采用Schema-on-Write(存储前定义模式)。A、B、D均表述错误。

决策树分裂时,信息增益(InformationGain)基于以下哪个指标计算?

A.基尼系数(GiniIndex)

B.熵(Entropy)

C.均方误差(MSE)

D.似然比(LikelihoodRatio)

答案:B

解析:信息增益=父节点熵-子节点加权熵,用于衡量分裂后不确定性的减少;基尼系数是CART算法的分裂指标;MSE用于回归树;似然比常见于统计检验。

以下哪种异常检测方法适用于高维稀疏数据?

A.基于距离的方法(如K近邻)

B.基于密度的方法(如DBSCAN)

C.孤立森林(IsolationForest)

D.统计方法(如Z-score)

答案:C

解析:高维稀疏数据中,距离和密度计算易失效(维度诅咒);孤立森林通过随机划分特征空间隔离异常点,对高维数据鲁棒;Z-score依赖正态分布假设,不适用于稀疏数据。

朴素贝叶斯分类器的“朴素”假设是?

A.特征之间相互独立

B.类别服从均匀分布

C.特征服从正态分布

D.样本量足够大

答案:A

解析:朴素贝叶斯假设各特征在给定类别下条件独立,简化了联合概率计算;其他选项是特定场景的假设(如高斯朴素贝叶斯假设特征正态分布),非核心“朴素”假设。

关联规则挖掘中,“支持度(Support)”的计算公式是?

A.包含项集X和Y的事务数/总事务数

B.包含项集X的事务中包含Y的比例

C.(支持度(X∪Y))/(支持度(X)*支持度(Y))

D.(支持度(X∪Y))/支持度(X)

答案:A

解析:支持度衡量项集出现的频繁程度,定义为同时包含X和Y的事务数占总事务数的比例;B是置信度(Confidence);C是提升度(Lift);

文档评论(0)

1亿VIP精品文档

相关文档