2026年高级数据分析师考试题库(附答案和详细解析)(0222).docxVIP

  • 4
  • 0
  • 约8.53千字
  • 约 13页
  • 2026-04-18 发布于上海
  • 举报

2026年高级数据分析师考试题库(附答案和详细解析)(0222).docx

高级数据分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在数据清洗过程中,处理缺失值的核心原则是?

A.统一使用均值填充所有数值型缺失值

B.根据业务场景和缺失机制选择处理方法

C.直接删除所有包含缺失值的记录

D.用前一条记录的值填充缺失值

答案:B

解析:缺失值处理需结合业务含义(如用户未填写年龄可能是隐私敏感)和缺失机制(完全随机/随机/非随机)选择方法(如删除、插值、建模预测)。A错误,均值填充可能掩盖数据分布特征;C错误,删除会导致信息丢失;D错误,前值填充适用于时间序列但非普适。

以下哪项是过拟合的典型表现?

A.训练集准确率85%,验证集准确率83%

B.训练集准确率95%,验证集准确率60%

C.训练集准确率60%,验证集准确率58%

D.训练集与验证集准确率均超过90%

答案:B

解析:过拟合指模型过度学习训练数据的噪声,导致泛化能力差。B中训练集表现远优于验证集,符合过拟合特征。A为正常泛化(差距小);C为欠拟合(整体表现差);D为理想状态(模型泛化性强)。

设计用户活跃度指标时,最核心的原则是?

A.指标计算复杂度低

B.与业务目标强关联

C.数据可获取性高

D.指标覆盖所有用户行为

答案:B

解析:高级数据分析师需以业务目标为导向(如提升留存需关注登录频率而非无关行为)。A、C是约束条件而非核心;D错误,覆盖所有行为可

文档评论(0)

1亿VIP精品文档

相关文档