2025年高级数据分析师考试题库(附答案和详细解析)(1010).docxVIP

  • 0
  • 0
  • 约8.81千字
  • 约 12页
  • 2025-10-18 发布于上海
  • 举报

2025年高级数据分析师考试题库(附答案和详细解析)(1010).docx

高级数据分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在数据清洗过程中,处理异常值的核心原则是()

A.直接删除所有异常值

B.用均值替换所有异常值

C.仅保留符合正态分布的数值

D.根据业务场景判断异常值的合理性

答案:D

解析:异常值可能是数据错误(如测量误差),也可能是真实业务现象(如用户突发大额消费)。直接删除或统一替换(A/B)会丢失关键信息;正态分布仅适用于部分场景(C)。正确做法是结合业务逻辑判断异常值的来源(如用户行为、系统日志),再决定保留、修正或删除(D)。

评估分类模型时,F1-score更适用于以下哪种场景?()

A.正负样本极度不平衡

B.仅关注模型的准确率

C.需要平衡精确率与召回率

D.预测连续型数值

答案:C

解析:F1-score是精确率(Precision)和召回率(Recall)的调和平均(2PR/(P+R)),适用于需要同时关注“查准”和“查全”的场景(C)。正负样本不平衡时更常用AUC-ROC(A错误);准确率(Accuracy)未考虑类别分布(B错误);预测连续值用回归模型(D错误)。

关于A/B测试的前提条件,以下表述正确的是()

A.只需保证两组样本量相同

B.实验前需验证两组用户的同质性

C.实验周期越短越好以避免外部干扰

D.无需考虑业务指标的实际显著性

答案:B

解析:A/B测试要求实验组与对照组在实验前具有同质性(如用户画像、行为特征一致),否则结果可能由分组偏差导致(B正确)。样本量需满足统计检验要求(A错误);实验周期需覆盖用户完整行为周期(如电商至少7天)(C错误);统计显著(P0.05)不代表业务显著(如提升0.1%无实际价值)(D错误)。

时间序列的组成部分不包括()

A.趋势(Trend)

B.季节性(Seasonality)

C.白噪声(WhiteNoise)

D.共线性(Multicollinearity)

答案:D

解析:时间序列的经典分解包括趋势(长期变化)、季节性(周期性波动)、循环性(非固定周期)和残差(白噪声,无规律部分)(A/B/C正确)。共线性是回归模型中特征间的高度相关性,属于截面数据问题(D错误)。

特征工程中,处理高基数类别特征(如“用户ID”)的最佳方法是()

A.直接删除该特征

B.独热编码(One-HotEncoding)

C.嵌入编码(Embedding)

D.标签编码(LabelEncoding)

答案:C

解析:高基数特征(如用户ID有10万+唯一值)使用独热编码会导致维度爆炸(B错误);标签编码无法捕捉特征间的语义关系(D错误);直接删除可能丢失关键信息(A错误)。嵌入编码通过神经网络学习低维稠密表示,能保留特征内在关联(C正确)。

数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别是()

A.数据湖仅存储结构化数据

B.数据仓库支持实时数据写入

C.数据湖在存储时不定义模式(Schema-on-Read)

D.数据仓库使用文件系统存储(如HDFS)

答案:C

解析:数据湖采用“读时模式”(Schema-on-Read),存储原始数据(结构化/半结构化/非结构化)后再定义模式(C正确);数据仓库是“写时模式”(Schema-on-Write),需提前设计表结构(A错误)。数据仓库通常支持批量写入(非实时)(B错误);数据湖使用分布式文件系统(如HDFS),数据仓库用关系型数据库(D错误)。

若混淆矩阵中TP=80,FP=20,FN=30,TN=70,则精确率为()

A.80%

B.72.7%

C.66.7%

D.53.3%

答案:A

解析:精确率=TP/(TP+FP)=80/(80+20)=80%(A正确)。72.7%是召回率(80/(80+30)),66.7%是准确率((80+70)/200),53.3%无实际意义(D错误)。

贝叶斯定理的核心思想是()

A.用先验概率修正后验概率

B.假设特征间相互独立

C.最大化似然函数

D.最小化损失函数

答案:A

解析:贝叶斯定理公式为P(A|B)=P(B|A)P(A)/P(B),即通过先验概率P(A)和似然度P(B|A)计算后验概率P(A|B)(A正确)。特征独立是朴素贝叶斯的假设(B错误);最大化似然是频率学派方法(C错误);最小化损失是优化目标(D错误)。

因果推断中,“工具变量法”适用于解决以下哪种偏差?()

A.选择偏差(SelectionBias)

B.遗漏变量偏差(OmittedVariableBias)

C.测量误差偏差(MeasurementErrorBias)

D.幸存者偏差(SurvivorshipBia

文档评论(0)

1亿VIP精品文档

相关文档