2025年高级数据分析师考试题库(附答案和详细解析)(1223).docxVIP

  • 2
  • 0
  • 约9.39千字
  • 约 12页
  • 2026-01-31 发布于上海
  • 举报

2025年高级数据分析师考试题库(附答案和详细解析)(1223).docx

高级数据分析师考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪种统计量最适合描述数据分布的偏态程度?

A.方差

B.标准差

C.偏度系数

D.峰度系数

答案:C

解析:偏度系数(Skewness)用于衡量数据分布的不对称性,正值表示右偏,负值表示左偏;方差和标准差衡量数据离散程度;峰度系数(Kurtosis)衡量数据分布的尖峰或平尾程度。因此正确答案为C。

在机器学习中,L1正则化的主要作用是?

A.防止过拟合,同时实现特征选择

B.防止欠拟合,提升模型复杂度

C.加速梯度下降收敛速度

D.减少计算过程中的数值误差

答案:A

解析:L1正则化通过在损失函数中加入参数绝对值的和(L1范数),会使部分参数变为0,从而自动剔除不重要的特征(特征选择),同时降低模型复杂度,防止过拟合;L2正则化(岭回归)主要防止过拟合但不会产生稀疏解。因此正确答案为A。

以下哪项不是A/B测试的必要条件?

A.两组样本独立随机分配

B.实验前样本量满足统计显著性要求

C.实验期间其他变量保持不变(除干预变量)

D.实验组与对照组样本量完全相等

答案:D

解析:A/B测试要求样本随机分配(保证无偏)、样本量足够(避免第一类/第二类错误)、控制其他变量(排除混杂因素),但实验组与对照组样本量无需完全相等(通常按1:1或其他比例分配)。因此正确答案为D。

时间序列分析中,ARIMA模型的“MA”代表?

A.自回归(AutoRegressive)

B.移动平均(MovingAverage)

C.差分(Integrated)

D.季节调整(Seasonal)

答案:B

解析:ARIMA模型由三部分组成:AR(自回归,p阶)、I(差分,d阶)、MA(移动平均,q阶)。MA部分通过过去误差项的线性组合拟合当前值。因此正确答案为B。

在数据可视化中,“辛普森悖论”最可能通过哪种图表暴露?

A.散点图

B.分组柱状图

C.热力图

D.箱线图

答案:B

解析:辛普森悖论指分组数据与整体数据趋势相反的现象(如分组中A方案优于B,但整体B更优),分组柱状图可直观展示各子组与整体的差异;散点图主要展示变量间相关性,热力图展示矩阵数据密度,箱线图展示分布特征。因此正确答案为B。

以下哪种场景最适合使用决策树模型?

A.高维稀疏文本数据分类(如垃圾邮件识别)

B.小样本量的医学诊断规则提取

C.时间序列预测(如股票价格)

D.大规模实时推荐系统

答案:B

解析:决策树擅长提取可解释的规则,适合小样本、需要业务理解的场景(如医学诊断);高维稀疏数据通常用逻辑回归或神经网络,时间序列用ARIMA或LSTM,实时推荐系统需高效模型(如协同过滤)。因此正确答案为B。

数据仓库(DataWarehouse)与数据湖(DataLake)的核心区别是?

A.数据存储介质(磁盘vs云存储)

B.数据结构化程度(结构化vs非结构化)

C.数据访问速度(实时vs批量)

D.数据来源数量(单一vs多源)

答案:B

解析:数据仓库主要存储结构化数据(如关系型数据库表),需预先定义模式(Schema-on-Write);数据湖存储原始、多格式数据(结构化/半结构化/非结构化),采用模式后期绑定(Schema-on-Read)。因此正确答案为B。

在特征工程中,“WOE编码”(WeightofEvidence)主要用于?

A.处理类别特征的高基数问题(如地区编码)

B.降低连续特征的维度(如用户年龄分段)

C.衡量特征对目标变量的预测能力(如信用评分)

D.消除特征间的多重共线性(如收入与消费)

答案:C

解析:WOE编码通过计算每个分箱中正负样本的比例对数,衡量特征分箱与目标变量的相关性,常用于信用评分等二分类场景;处理高基数类别特征常用目标编码或嵌入,降维用PCA,消除共线性用VIF或正则化。因此正确答案为C。

以下哪项属于“第二型错误”(β错误)?

A.原假设为真时拒绝原假设(弃真)

B.原假设为假时接受原假设(取伪)

C.备择假设为真时拒绝备择假设

D.备择假设为假时接受备择假设

答案:B

解析:第一型错误(α错误)是“弃真”(原假设为真但拒绝),第二型错误(β错误)是“取伪”(原假设为假但接受)。因此正确答案为B。

在K-means聚类中,“肘部法则”(ElbowMethod)用于确定?

A.初始质心的位置

B.最优的簇数k

C.数据标准化的方法

D.距离度量的选择(欧氏距离vs余弦相似度)

答案:B

解析:肘部法则通过计算不同k值下的簇内平方和(SSE),寻找SSE下降速率突变的“拐点”,确定最优簇数;初始质心通常随机选择或用k-means++,数据标准化需提前处理,距离度量根据业务场景选

文档评论(0)

1亿VIP精品文档

相关文档