- 0
- 0
- 约9.87千字
- 约 12页
- 2026-02-17 发布于江苏
- 举报
高级数据分析师考试试卷
一、单项选择题(共10题,每题1分,共10分)
在混淆矩阵中,F1分数的计算基于以下哪两个指标的调和平均?
A.准确率(Accuracy)和召回率(Recall)
B.精确率(Precision)和特异度(Specificity)
C.精确率(Precision)和召回率(Recall)
D.准确率(Accuracy)和特异度(Specificity)
答案:C
解析:F1分数是精确率(Precision,TP/(TP+FP))和召回率(Recall,TP/(TP+FN))的调和平均,公式为(F1=2)。选项A错误,准确率是(TP+TN)/(TP+TN+FP+FN),与召回率无关;选项B和D中的特异度(TN/(TN+FP))不参与F1计算,故排除。
以下哪种特征选择方法属于过滤法(Filter)?
A.递归特征消除(RFE)
B.卡方检验(Chi-squaredTest)
C.基于树模型的特征重要性(如随机森林)
D.L1正则化(Lasso)
答案:B
解析:过滤法通过统计指标(如卡方检验、信息增益)评估特征与目标变量的相关性,独立于模型训练。选项A(RFE)和C(树模型特征重要性)属于包裹法(Wrapper),依赖模型性能;选项D(L1正则化)属于嵌入法(Embedded),在模型训练中自动选择特征,故排除。
时间序列预测中,ARIMA模型的“MA”部分表示?
A.自回归(AutoRegressive)
B.移动平均(MovingAverage)
C.差分(Differencing)
D.季节调整(SeasonalAdjustment)
答案:B
解析:ARIMA模型由三部分组成:AR(自回归,p阶)、I(差分,d阶)、MA(移动平均,q阶)。MA部分通过过去误差项的线性组合预测当前值,故正确答案为B。
数据清洗中,处理缺失值时,以下哪种场景适合用均值填充?
A.缺失值与目标变量强相关
B.特征服从正态分布且无异常值
C.特征为类别型变量
D.缺失值比例超过50%
答案:B
解析:均值填充适用于数值型变量且数据分布较为集中(如正态分布)、无异常值的场景,否则会扭曲数据分布。选项A中缺失值与目标变量相关时,应采用模型预测填充;选项C需用众数或编码填充;选项D建议删除或单独成类,故排除。
A/B测试中,若显著性水平(α)设为0.05,意味着?
A.有5%的概率接受原假设(H0)
B.有5%的概率犯第一类错误(弃真错误)
C.有5%的概率犯第二类错误(取伪错误)
D.测试结果的置信度为95%
答案:B
解析:显著性水平α是原假设为真时拒绝原假设的概率(第一类错误)。置信度=1-α=95%,但选项D表述不严谨(置信度通常指置信区间),故正确答案为B。
数据仓库(DataWarehouse)的核心特点是?
A.支持实时事务处理(OLTP)
B.面向主题(Subject-Oriented)
C.数据更新频繁
D.存储当前最新数据
答案:B
解析:数据仓库的核心特点包括面向主题、集成性、非易失性(长期存储)、时变性(按时间周期更新)。选项A和C是数据库(OLTP系统)的特点;选项D错误,数据仓库存储历史数据,故排除。
因果推断中,“后门准则”(BackdoorCriterion)的作用是?
A.识别需要控制的混淆变量
B.验证工具变量(InstrumentalVariable)的有效性
C.评估干预的平均处理效应(ATE)
D.检验时间序列的平稳性
答案:A
解析:后门准则用于识别需要控制的混淆变量(即同时影响原因和结果的变量),通过阻断“后门路径”来估计因果效应。选项B是工具变量法的要求;选项C是因果推断的目标;选项D与时间序列分析相关,故排除。
特征工程中,对高基数类别特征(如用户ID)进行编码时,最适合的方法是?
A.独热编码(One-HotEncoding)
B.标签编码(LabelEncoding)
C.目标编码(TargetEncoding)
D.二进制编码(BinaryEncoding)
答案:C
解析:高基数类别特征(如用户ID)使用独热编码会导致维度爆炸(维度=类别数),标签编码无法捕捉类别与目标的关联,二进制编码适用于中等基数。目标编码通过目标变量的统计量(如均值)对类别进行编码,能有效利用类别与目标的关系,故正确答案为C。
数据质量评估中,“一致性”(Consistency)主要指?
A.数据在不同系统中的表述一致
B.数据无重复记录
C.数据符合业务规则(如日期格式)
D.数据与真实世界的匹配程度
答案:A
解析:数据质量的一致性指同一实体在不同系统或存储中的表述一致(如“北京”和“北京市
原创力文档

文档评论(0)