2026年高级数据分析师考试题库(附答案和详细解析)(0127).docxVIP

  • 0
  • 0
  • 约9.87千字
  • 约 12页
  • 2026-02-17 发布于江苏
  • 举报

2026年高级数据分析师考试题库(附答案和详细解析)(0127).docx

高级数据分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在混淆矩阵中,F1分数的计算基于以下哪两个指标的调和平均?

A.准确率(Accuracy)和召回率(Recall)

B.精确率(Precision)和特异度(Specificity)

C.精确率(Precision)和召回率(Recall)

D.准确率(Accuracy)和特异度(Specificity)

答案:C

解析:F1分数是精确率(Precision,TP/(TP+FP))和召回率(Recall,TP/(TP+FN))的调和平均,公式为(F1=2)。选项A错误,准确率是(TP+TN)/(TP+TN+FP+FN),与召回率无关;选项B和D中的特异度(TN/(TN+FP))不参与F1计算,故排除。

以下哪种特征选择方法属于过滤法(Filter)?

A.递归特征消除(RFE)

B.卡方检验(Chi-squaredTest)

C.基于树模型的特征重要性(如随机森林)

D.L1正则化(Lasso)

答案:B

解析:过滤法通过统计指标(如卡方检验、信息增益)评估特征与目标变量的相关性,独立于模型训练。选项A(RFE)和C(树模型特征重要性)属于包裹法(Wrapper),依赖模型性能;选项D(L1正则化)属于嵌入法(Embedded),在模型训练中自动选择特征,故排除。

时间序列预测中,ARIMA模型的“MA”部分表示?

A.自回归(AutoRegressive)

B.移动平均(MovingAverage)

C.差分(Differencing)

D.季节调整(SeasonalAdjustment)

答案:B

解析:ARIMA模型由三部分组成:AR(自回归,p阶)、I(差分,d阶)、MA(移动平均,q阶)。MA部分通过过去误差项的线性组合预测当前值,故正确答案为B。

数据清洗中,处理缺失值时,以下哪种场景适合用均值填充?

A.缺失值与目标变量强相关

B.特征服从正态分布且无异常值

C.特征为类别型变量

D.缺失值比例超过50%

答案:B

解析:均值填充适用于数值型变量且数据分布较为集中(如正态分布)、无异常值的场景,否则会扭曲数据分布。选项A中缺失值与目标变量相关时,应采用模型预测填充;选项C需用众数或编码填充;选项D建议删除或单独成类,故排除。

A/B测试中,若显著性水平(α)设为0.05,意味着?

A.有5%的概率接受原假设(H0)

B.有5%的概率犯第一类错误(弃真错误)

C.有5%的概率犯第二类错误(取伪错误)

D.测试结果的置信度为95%

答案:B

解析:显著性水平α是原假设为真时拒绝原假设的概率(第一类错误)。置信度=1-α=95%,但选项D表述不严谨(置信度通常指置信区间),故正确答案为B。

数据仓库(DataWarehouse)的核心特点是?

A.支持实时事务处理(OLTP)

B.面向主题(Subject-Oriented)

C.数据更新频繁

D.存储当前最新数据

答案:B

解析:数据仓库的核心特点包括面向主题、集成性、非易失性(长期存储)、时变性(按时间周期更新)。选项A和C是数据库(OLTP系统)的特点;选项D错误,数据仓库存储历史数据,故排除。

因果推断中,“后门准则”(BackdoorCriterion)的作用是?

A.识别需要控制的混淆变量

B.验证工具变量(InstrumentalVariable)的有效性

C.评估干预的平均处理效应(ATE)

D.检验时间序列的平稳性

答案:A

解析:后门准则用于识别需要控制的混淆变量(即同时影响原因和结果的变量),通过阻断“后门路径”来估计因果效应。选项B是工具变量法的要求;选项C是因果推断的目标;选项D与时间序列分析相关,故排除。

特征工程中,对高基数类别特征(如用户ID)进行编码时,最适合的方法是?

A.独热编码(One-HotEncoding)

B.标签编码(LabelEncoding)

C.目标编码(TargetEncoding)

D.二进制编码(BinaryEncoding)

答案:C

解析:高基数类别特征(如用户ID)使用独热编码会导致维度爆炸(维度=类别数),标签编码无法捕捉类别与目标的关联,二进制编码适用于中等基数。目标编码通过目标变量的统计量(如均值)对类别进行编码,能有效利用类别与目标的关系,故正确答案为C。

数据质量评估中,“一致性”(Consistency)主要指?

A.数据在不同系统中的表述一致

B.数据无重复记录

C.数据符合业务规则(如日期格式)

D.数据与真实世界的匹配程度

答案:A

解析:数据质量的一致性指同一实体在不同系统或存储中的表述一致(如“北京”和“北京市

文档评论(0)

1亿VIP精品文档

相关文档