2026年高级数据分析师考试题库（附答案和详细解析）（0102）.docxVIP

下载本文档

0
0
约9.99千字
约 14页
2026-03-23 发布于上海
举报

2026年高级数据分析师考试题库（附答案和详细解析）（0102）.docx

高级数据分析师考试试卷（总分100分）

一、单项选择题（共10题，每题1分，共10分）

1.在数据清洗过程中，处理缺失值的最佳策略是？

A.直接删除所有包含缺失值的记录

B.用该列的均值填充所有缺失值

C.根据业务场景选择删除、插补或保留

D.对缺失值列进行二值化处理（标记是否缺失）

答案：C

解析：缺失值处理需结合业务场景：若缺失比例极低且不影响分析（如用户手机号缺失），可删除；若缺失与目标变量相关（如医疗数据中的某项指标缺失可能暗示病情），需保留并标记；若缺失为随机误差（如传感器数据），可用均值/中位数插补。选项A忽略小样本场景下删除记录的信息损失；B忽略类别型变量或异常值影响；D仅适用于缺失本身有业务意义的场景（如用户未填写某字段可能反映偏好）。

2.以下哪种机器学习模型更适合处理高维稀疏的文本数据？

A.决策树

B.支持向量机（SVM）

C.逻辑回归

D.K近邻（KNN）

答案：C

解析：高维稀疏文本数据（如词袋模型）特征维度可达数万，逻辑回归通过正则化（L1/L2）可有效处理高维问题，计算效率高且参数解释性强。SVM在高维下易过拟合且计算复杂度高（O(n3)）；决策树对高维稀疏数据划分边界不敏感；KNN因“维度灾难”导致距离计算失效。

3.在A/B测试中，若显著性水平α设为0.05，其统计学含义是？

A.原假设为真时拒绝原假设的概率

B.备择假设

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年高级数据分析师考试题库（附答案和详细解析）（0102）.docxVIP