2026年高级数据分析师考试题库(附答案和详细解析)(0103).docxVIP

  • 0
  • 0
  • 约7.89千字
  • 约 12页
  • 2026-02-04 发布于江苏
  • 举报

2026年高级数据分析师考试题库(附答案和详细解析)(0103).docx

高级数据分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在假设检验中,若研究目的是“验证某新药疗效是否与原药有差异”,应选择的检验类型是()

A.单侧检验(左侧)

B.单侧检验(右侧)

C.双侧检验

D.卡方检验

答案:C

解析:双侧检验用于验证两个总体是否存在差异(无论方向),而单侧检验用于验证是否存在特定方向的差异(如“更大”或“更小”)。题目中研究目的是“是否有差异”,不指定方向,因此选双侧检验。卡方检验适用于分类变量的独立性检验,与本题场景不符。

以下哪项是数据清洗中处理缺失值的合理方法?()

A.直接删除所有含缺失值的记录

B.用变量均值填充所有缺失值

C.根据业务逻辑选择填充方法(如时间序列用前向填充)

D.将缺失值标记为“未知”后直接建模

答案:C

解析:直接删除记录(A)可能导致数据丢失严重;用均值填充(B)忽略了变量的分布特征(如偏态分布);将缺失值标记为“未知”(D)可能引入噪声。合理方法是根据业务场景选择填充方式(如时间序列用前向填充保留趋势),因此选C。

在机器学习中,以下哪项指标最适合评估分类模型的“整体正确性”?()

A.准确率(Accuracy)

B.精确率(Precision)

C.召回率(Recall)

D.F1分数

答案:A

解析:准确率是正确分类样本占总样本的比例,反映整体正确性;精确率关注“预测为正”中的真实正例比例,召回率关注“真实正例”中被正确预测的比例,F1是二者的调和平均。题目要求“整体正确性”,故选A。

AB测试中,若对照组与实验组的样本量差异超过30%,最可能导致的问题是()

A.统计功效不足

B.选择偏差

C.多重比较错误

D.辛普森悖论

答案:A

解析:样本量差异过大可能导致统计功效(检测真实差异的能力)下降,无法有效验证假设。选择偏差(B)源于样本分配不均;多重比较错误(C)与多次检验有关;辛普森悖论(D)是分组与整体趋势矛盾的现象,均不符合题意。

以下哪项属于时间序列的“周期性”特征?()

A.某电商平台销售额逐年增长

B.某城市用电量夏季高于冬季

C.某股票价格日波动无明显规律

D.某APP日活用户数受突发事件影响骤降

答案:B

解析:周期性指固定时间间隔(如年、季、月)重复出现的模式,夏季用电量高于冬季符合“年度周期”。A是趋势(长期变化),C是随机波动,D是异常值,均不属于周期性。

在特征工程中,“将用户年龄从连续变量转换为‘0-18’‘19-30’等区间”属于()

A.特征分箱

B.特征缩放

C.特征交叉

D.特征选择

答案:A

解析:特征分箱是将连续变量离散化为区间;特征缩放(B)是标准化或归一化;特征交叉(C)是组合多个特征;特征选择(D)是筛选重要特征。故选A。

以下哪项最能反映数据仓库(DataWarehouse)的核心特点?()

A.支持实时写入与高并发查询

B.存储原始、未加工的多类型数据

C.面向主题、集成、非易失、时变

D.适用于实时数据分析场景

答案:C

解析:数据仓库的四大特性是面向主题(按业务主题组织)、集成(多源数据整合)、非易失(历史数据只读)、时变(包含时间维度)。A和D是数据库或数据湖的特点,B是数据湖的特点。

在混淆矩阵中,若某模型的“真阳性率(TPR)”很高但“假阳性率(FPR)”也很高,说明模型()

A.对正类的区分能力弱

B.更倾向于预测为正类

C.对负类的区分能力强

D.整体准确率很高

答案:B

解析:TPR=TP/(TP+FN)(正类正确识别率),FPR=FP/(FP+TN)(负类错误识别为正的比例)。两者均高,说明模型倾向于将多数样本预测为正类(无论真实类别),因此选B。

以下哪项不属于商业分析中的“北极星指标”(NorthStarMetric)?()

A.电商平台的“月活跃用户数(MAU)”

B.视频APP的“用户日均使用时长”

C.教育类产品的“付费转化率”

D.社交平台的“用户发布内容数”

答案:A

解析:北极星指标需直接反映产品核心价值,与用户增长或收入强相关。MAU(A)是用户规模指标,但未直接体现用户价值(如是否活跃或付费);B(使用时长)、C(付费转化)、D(内容生产)均与核心价值更相关。

在贝叶斯分类中,“先验概率”指的是()

A.给定类别下特征的概率P(X|Y)

B.特征出现的概率P(X)

C.类别出现的概率P(Y)

D.后验概率P(Y|X)

答案:C

解析:贝叶斯公式为P(Y|X)=P(X|Y)P(Y)/P(X),其中P(Y)是先验概率(类别在无特征时的概率),P(X|Y)是似然概率,P(Y|X)是后验概率。故选C。

二、多项选择题(共10题,每题2分,共20分)

数据质量的核

文档评论(0)

1亿VIP精品文档

相关文档