2026年高级数据分析师考试题库（附答案和详细解析）（0127）.docxVIP

下载本文档

0
0
约9.87千字
约 12页
2026-02-17 发布于江苏
举报

2026年高级数据分析师考试题库（附答案和详细解析）（0127）.docx

高级数据分析师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在混淆矩阵中，F1分数的计算基于以下哪两个指标的调和平均？

A.准确率（Accuracy）和召回率（Recall）

B.精确率（Precision）和特异度（Specificity）

C.精确率（Precision）和召回率（Recall）

D.准确率（Accuracy）和特异度（Specificity）

答案：C

解析：F1分数是精确率（Precision，TP/(TP+FP)）和召回率（Recall，TP/(TP+FN)）的调和平均，公式为(F1=2)。选项A错误，准确率是(TP+TN)/(TP+TN+FP+FN)，与召回率无关；选项B和D中的特异度（TN/(TN+FP)）不参与F1计算，故排除。

以下哪种特征选择方法属于过滤法（Filter）？

A.递归特征消除（RFE）

B.卡方检验（Chi-squaredTest）

C.基于树模型的特征重要性（如随机森林）

D.L1正则化（Lasso）

答案：B

解析：过滤法通过统计指标（如卡方检验、信息增益）评估特征与目标变量的相关性，独立于模型训练。选项A（RFE）和C（树模型特征重要性）属于包裹法（Wrapper），依赖模型性能；选项D（L1正则化）属于嵌入法（Embedded），在模型训练中自动选择特征，故排除。

时间序列预测中，ARIMA模型的“MA”部分表示？

A.自回归（AutoRegressive）

B.移动平均（MovingAverage）

C.差分（Differencing）

D.季节调整（SeasonalAdjustment）

答案：B

解析：ARIMA模型由三部分组成：AR（自回归，p阶）、I（差分，d阶）、MA（移动平均，q阶）。MA部分通过过去误差项的线性组合预测当前值，故正确答案为B。

数据清洗中，处理缺失值时，以下哪种场景适合用均值填充？

A.缺失值与目标变量强相关

B.特征服从正态分布且无异常值

C.特征为类别型变量

D.缺失值比例超过50%

答案：B

解析：均值填充适用于数值型变量且数据分布较为集中（如正态分布）、无异常值的场景，否则会扭曲数据分布。选项A中缺失值与目标变量相关时，应采用模型预测填充；选项C需用众数或编码填充；选项D建议删除或单独成类，故排除。

A/B测试中，若显著性水平（α）设为0.05，意味着？

A.有5%的概率接受原假设（H0）

B.有5%的概率犯第一类错误（弃真错误）

C.有5%的概率犯第二类错误（取伪错误）

D.测试结果的置信度为95%

答案：B

解析：显著性水平α是原假设为真时拒绝原假设的概率（第一类错误）。置信度=1-α=95%，但选项D表述不严谨（置信度通常指置信区间），故正确答案为B。

数据仓库（DataWarehouse）的核心特点是？

A.支持实时事务处理（OLTP）

B.面向主题（Subject-Oriented）

C.数据更新频繁

D.存储当前最新数据

答案：B

解析：数据仓库的核心特点包括面向主题、集成性、非易失性（长期存储）、时变性（按时间周期更新）。选项A和C是数据库（OLTP系统）的特点；选项D错误，数据仓库存储历史数据，故排除。

因果推断中，“后门准则”（BackdoorCriterion）的作用是？

A.识别需要控制的混淆变量

B.验证工具变量（InstrumentalVariable）的有效性

C.评估干预的平均处理效应（ATE）

D.检验时间序列的平稳性

答案：A

解析：后门准则用于识别需要控制的混淆变量（即同时影响原因和结果的变量），通过阻断“后门路径”来估计因果效应。选项B是工具变量法的要求；选项C是因果推断的目标；选项D与时间序列分析相关，故排除。

特征工程中，对高基数类别特征（如用户ID）进行编码时，最适合的方法是？

A.独热编码（One-HotEncoding）

B.标签编码（LabelEncoding）

C.目标编码（TargetEncoding）

D.二进制编码（BinaryEncoding）

答案：C

解析：高基数类别特征（如用户ID）使用独热编码会导致维度爆炸（维度=类别数），标签编码无法捕捉类别与目标的关联，二进制编码适用于中等基数。目标编码通过目标变量的统计量（如均值）对类别进行编码，能有效利用类别与目标的关系，故正确答案为C。

数据质量评估中，“一致性”（Consistency）主要指？

A.数据在不同系统中的表述一致

B.数据无重复记录

C.数据符合业务规则（如日期格式）

D.数据与真实世界的匹配程度

答案：A

解析：数据质量的一致性指同一实体在不同系统或存储中的表述一致（如“北京”和“北京市

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年高级数据分析师考试题库（附答案和详细解析）（0127）.docxVIP