- 1
- 0
- 约7.4千字
- 约 16页
- 2026-05-12 发布于四川
- 举报
2026年数据分析师认证考试真题题库
一、单项选择题
1.在数据预处理过程中,发现某数值型字段存在大量超出业务合理范围的极端值,但经核实这些值均为真实数据,非录入错误。此时,最合适的处理方法是:
A.直接删除含有这些极端值的所有记录。
B.使用该字段的平均值填充这些极端值。
C.采用箱线图法或标准差法,将其识别为异常值,并根据分析目标决定是否剔除或转换。
D.不做任何处理,保留原样进行分析。
答案:C
解析:真实存在的极端值(如超高收入、超长响应时间)属于异常值(Outlier),而非错误值。直接删除(A)可能损失重要信息,用平均值填充(B)会严重扭曲数据分布,不做处理(D)可能使模型对极端值过度敏感。正确做法是首先使用统计方法(如箱线图的IQR法则或基于标准差)识别它们,然后根据具体业务场景和分析目标(例如,是否关注这些极端案例、模型对异常值的鲁棒性等)来决定是保留、剔除还是进行数值转换(如取对数)。
2.关于A/B测试中的假设检验,以下描述正确的是:
A.第一类错误(TypeIError)是指当原假设为真时,我们错误地接受了它。
B.显著性水平α通常设定为0.05,其含义是允许犯第二类错误的概率为5%。
C.在样本量固定的情况下,降低显著性水平α(如从0.05降至0.01)会降低检验的统计功效(Power)。
D.P值小于显著性水平α,说明备择假设为真的概
原创力文档

文档评论(0)