2025年高级数据分析师考试题库(附答案和详细解析)(1016).docxVIP

  • 1
  • 0
  • 约8.91千字
  • 约 12页
  • 2025-10-23 发布于江苏
  • 举报

2025年高级数据分析师考试题库(附答案和详细解析)(1016).docx

高级数据分析师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

在假设检验中,若原假设为“某药物无效”,拒绝原假设时可能犯的错误类型是()。

A.第一类错误(弃真错误)

B.第二类错误(取伪错误)

C.第三类错误(结论方向错误)

D.无错误

答案:A

解析:假设检验中,第一类错误是原假设为真时拒绝原假设(弃真),第二类错误是原假设为假时接受原假设(取伪)。本题中原假设“药物无效”为真时,拒绝原假设即错误认为药物有效,属于第一类错误。

以下哪项是时间序列数据的典型特征?()

A.数据点之间独立同分布

B.存在自相关性(Autocorrelation)

C.变量间存在多重共线性

D.数据服从正态分布

答案:B

解析:时间序列数据的核心特征是观测值在时间维度上的依赖性(自相关性),如前一时刻的温度会影响当前时刻的温度。独立同分布是截面数据的特征,多重共线性是回归分析中的问题,正态分布是数据分布的假设,均非时间序列特有。

在特征工程中,对“用户注册时间”字段进行处理时,最合理的转换方式是()。

A.直接删除该字段(认为无关)

B.提取“注册月份”作为分类特征

C.计算“注册时间与当前时间的差值(天数)”作为连续特征

D.将时间戳转换为字符串格式

答案:C

解析:时间字段的核心信息是“时间间隔”(如用户留存时长),因此计算与业务目标(如用户活跃度)相关的时间差(如注册至今的天数)更能反映业务逻辑。直接删除会丢失关键信息,提取月份可能忽略时间顺序,字符串格式无法用于模型计算。

AB测试中,若实验组与对照组的样本量差异过大(如实验组1000人,对照组100人),最可能导致的问题是()。

A.统计功效不足(Power过低)

B.第一类错误概率升高

C.混淆变量无法控制

D.结果无法推广至全量用户

答案:A

解析:统计功效(Power)与样本量正相关,对照组样本量过小会导致无法检测到真实的效应差异(即使实验组有效果也可能因对照组数据不足而误判为无差异)。第一类错误由显著性水平(α)控制,与样本量无关;混淆变量需通过随机分组控制;样本量差异不影响结果推广性(只要随机)。

以下哪项指标最适合评估回归模型的预测精度?()

A.准确率(Accuracy)

B.F1分数

C.均方根误差(RMSE)

D.混淆矩阵

答案:C

解析:回归模型的目标是预测连续值,评估指标需衡量预测值与真实值的差异。RMSE(均方根误差)直接反映误差的平均水平,适用于回归任务。准确率、F1分数、混淆矩阵均为分类模型的评估指标。

在使用随机森林(RandomForest)时,若模型在训练集上表现优异(准确率95%),但在测试集上仅70%,最可能的原因是()。

A.树的深度过浅

B.特征数量不足

C.模型过拟合

D.学习率过高

答案:C

解析:训练集准确率远高于测试集,是典型的过拟合现象(模型过度学习训练集的噪声)。树的深度过浅会导致欠拟合(训练集、测试集表现均差);特征不足可能导致欠拟合;学习率是梯度下降模型(如GBDT)的参数,随机森林无此参数。

以下哪种场景最适合使用关联规则挖掘(Apriori算法)?()

A.预测用户下一次购买的商品

B.分析用户购买商品的频繁组合

C.识别高价值用户群体

D.检测异常交易记录

答案:B

解析:关联规则挖掘的核心是发现频繁项集(如“买啤酒的用户常买尿布”),适用于分析商品组合的关联性。预测购买(分类/回归)、用户分群(聚类)、异常检测(孤立森林等)均非关联规则的典型应用。

数据仓库(DataWarehouse)与数据库(Database)的核心区别是()。

A.数据仓库支持事务处理(OLTP),数据库支持分析处理(OLAP)

B.数据仓库存储历史数据,数据库存储实时数据

C.数据仓库采用星型/雪花模型,数据库采用第三范式

D.数据仓库的数据不可修改,数据库的数据可频繁增删改

答案:C

解析:数据仓库为分析优化,采用星型/雪花模型(维度表+事实表)提升查询效率;数据库为事务优化,采用第三范式(减少冗余)保证数据一致性。OLTP是数据库的功能,OLAP是数据仓库的功能(A错误);两者均可能存储历史或实时数据(B错误);数据仓库的ETL过程中数据可加载但不可修改(D错误)。

在用户分群(RFM模型)中,“M”代表的指标是()。

A.最近购买时间(Recency)

B.购买频率(Frequency)

C.购买金额(Monetary)

D.客户生命周期(Lifetime)

答案:C

解析:RFM模型中,R(Recency)为最近购买时间,F(Frequency)为购买频率,M(Monetary)为购买金额,用于衡量用户价值。

以下哪种方

文档评论(0)

1亿VIP精品文档

相关文档