2026年高级数据分析师考试题库(附答案和详细解析)(0206).docxVIP

  • 0
  • 0
  • 约8.61千字
  • 约 11页
  • 2026-03-23 发布于上海
  • 举报

2026年高级数据分析师考试题库(附答案和详细解析)(0206).docx

高级数据分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在处理高维数据的缺失值时,最适合高级数据分析师采用的方法是()

A.直接删除缺失值所在行

B.用变量均值填补缺失值

C.用随机森林模型预测填补

D.用相邻值向前填充(FFill)

答案:C

解析:高维数据中变量间可能存在复杂关联,随机森林填补法(C)通过其他变量预测缺失值,能保留变量间的非线性关系,适用于高级分析场景。A会导致数据损失;B忽略变量关联,可能引入偏差;D适用于时间序列但不适用于高维截面数据。

以下哪种统计检验方法适用于验证两个独立非正态分布样本的均值差异?()

A.t检验

B.卡方检验

C.曼-惠特尼U检验

D.方差分析(ANOVA)

答案:C

解析:曼-惠特尼U检验(C)是非参数检验方法,用于比较两个独立非正态分布样本的位置差异。t检验(A)和方差分析(D)要求数据正态分布;卡方检验(B)用于分类变量的独立性检验。

训练一个预测用户流失的分类模型时,若目标变量“是否流失”的正样本占比仅2%,应优先关注的评估指标是()

A.准确率(Accuracy)

B.F1分数

C.召回率(Recall)

D.精确率(Precision)

答案:C

解析:样本高度不平衡时,准确率(A)会被多数类主导,无法反映模型对正样本的识别能力。召回率(C)衡量模型正确识别的正样本比例,对流失预

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档