2026年高级数据分析师考试题库(附答案和详细解析)(0102).docxVIP

  • 0
  • 0
  • 约9.99千字
  • 约 14页
  • 2026-03-23 发布于上海
  • 举报

2026年高级数据分析师考试题库(附答案和详细解析)(0102).docx

高级数据分析师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

1.在数据清洗过程中,处理缺失值的最佳策略是?

A.直接删除所有包含缺失值的记录

B.用该列的均值填充所有缺失值

C.根据业务场景选择删除、插补或保留

D.对缺失值列进行二值化处理(标记是否缺失)

答案:C

解析:缺失值处理需结合业务场景:若缺失比例极低且不影响分析(如用户手机号缺失),可删除;若缺失与目标变量相关(如医疗数据中的某项指标缺失可能暗示病情),需保留并标记;若缺失为随机误差(如传感器数据),可用均值/中位数插补。选项A忽略小样本场景下删除记录的信息损失;B忽略类别型变量或异常值影响;D仅适用于缺失本身有业务意义的场景(如用户未填写某字段可能反映偏好)。

2.以下哪种机器学习模型更适合处理高维稀疏的文本数据?

A.决策树

B.支持向量机(SVM)

C.逻辑回归

D.K近邻(KNN)

答案:C

解析:高维稀疏文本数据(如词袋模型)特征维度可达数万,逻辑回归通过正则化(L1/L2)可有效处理高维问题,计算效率高且参数解释性强。SVM在高维下易过拟合且计算复杂度高(O(n3));决策树对高维稀疏数据划分边界不敏感;KNN因“维度灾难”导致距离计算失效。

3.在A/B测试中,若显著性水平α设为0.05,其统计学含义是?

A.原假设为真时拒绝原假设的概率

B.备择假设

文档评论(0)

1亿VIP精品文档

相关文档