2026年高级数据分析师考试题库（附答案和详细解析）（0117）.docxVIP

下载本文档

0
0
约8.01千字
约 10页
2026-03-04 发布于上海
举报

2026年高级数据分析师考试题库（附答案和详细解析）（0117）.docx

高级数据分析师考试试卷

一、单项选择题（共10题，每题1分，共10分）

在数据清洗过程中，处理缺失值的最佳实践是（）

A.直接删除所有包含缺失值的记录

B.根据业务场景选择插值（如均值/中位数）或删除策略

C.对所有数值型变量用均值填充，分类型变量用众数填充

D.忽略缺失值，直接用于模型训练

答案：B

解析：缺失值处理需结合业务场景：若缺失率低且记录重要（如关键用户行为数据），可插值；若缺失率高且无替代信息（如冷门商品销量），可删除。选项A可能导致数据量大幅损失；选项C未考虑变量分布（如偏态分布用中位数更合适）；选项D会导致模型偏差。

以下哪种指标最适合评估分类模型的全局预测准确性？（）

A.精确率（Precision）

B.召回率（Recall）

C.F1分数

D.准确率（Accuracy）

答案：D

解析：准确率（Accuracy）是预测正确样本占总样本的比例，反映全局准确性；精确率和召回率关注正类预测的质量（适用于类别不平衡场景）；F1是二者的调和平均。题目强调“全局”，故选D。

在AB测试中，若实验组与对照组的样本量差异超过30%，最可能导致（）

A.统计功效不足

B.P值计算偏差

C.置信区间过宽

D.业务指标不可比

答案：B

解析：AB测试要求两组样本量均衡，否则会影响方差估计，导致P值计算不准确（如大样本组可能放大微小差异）。统计功效不足（A）主要与总样本量有关；置信区间（C）与样本量正相关；业务指标（D）的可比性主要依赖随机分组。

以下哪项不属于数据挖掘中的关联规则分析目标？（）

A.发现“啤酒与尿布”的购买关联

B.计算支持度、置信度、提升度

C.预测用户下一次购买时间

D.识别高频项集

答案：C

解析：关联规则分析关注项集间的相关性（如A→B），核心指标是支持度（出现频率）、置信度（A出现时B出现的概率）、提升度（排除随机关联）。预测购买时间属于时序预测或回归任务，故选C。

对于高维稀疏数据（如文本TF-IDF特征），最适合的降维方法是（）

A.主成分分析（PCA）

B.线性判别分析（LDA）

C.奇异值分解（SVD）

D.局部线性嵌入（LLE）

答案：C

解析：SVD适用于处理高维稀疏矩阵（如文本），通过分解矩阵提取主要特征；PCA要求数据低维稠密（需计算协方差矩阵）；LDA用于有监督分类降维；LLE是流形学习方法，计算复杂度高。

在机器学习模型调参中，“早停法（EarlyStopping）”主要解决的问题是（）

A.过拟合

B.欠拟合

C.数据不平衡

D.特征冗余

答案：A

解析：早停法通过监控验证集误差，在误差不再下降时停止训练，避免模型过度学习训练集噪声，本质是解决过拟合。欠拟合（B）需增加模型复杂度；数据不平衡（C）需调整样本权重或采样；特征冗余（D）需降维或特征选择。

以下哪种场景最适合使用决策树模型？（）

A.预测连续型房价（万元）

B.识别图像中的猫/狗

C.分析用户分群的关键特征

D.处理高维时间序列数据

答案：C

解析：决策树的可解释性强，适合分析特征重要性（如用户分群的关键变量）；预测房价（A）常用线性回归或随机森林；图像识别（B）需卷积神经网络；时间序列（D）需ARIMA或LSTM。

数据伦理中“数据最小化原则”的核心要求是（）

A.收集尽可能多的数据以保证分析全面性

B.仅收集完成业务目标所需的最少必要数据

C.对敏感数据进行加密存储

D.向用户公开数据使用方式

答案：B

解析：数据最小化原则要求数据收集范围与业务目标严格相关，避免过度采集（如电商仅需用户地址而非身份证号）。选项A违反原则；C是数据安全措施；D是透明度要求。

在评估推荐系统时，“覆盖率（Coverage）”指标反映的是（）

A.推荐结果与用户兴趣的匹配程度

B.系统能够推荐的物品占总物品的比例

C.推荐列表中用户实际点击的比例

D.不同用户推荐结果的多样性

答案：B

解析：覆盖率=被推荐过的物品数/总物品数，衡量系统覆盖长尾商品的能力；匹配程度（A）用准确率；点击比例（C）用点击率；多样性（D）用相似性指标。

时间序列分析中，“季节性（Seasonality）”的典型特征是（）

A.数据随时间呈现长期递增/递减趋势

B.固定周期（如12个月）内的重复模式

C.由随机因素引起的短期波动

D.相邻观测值之间的依赖关系

答案：B

解析：季节性指固定周期（年、月、周）内的重复模式（如夏季冰淇淋销量上升）；趋势（A）是长期变化；随机波动（C）是噪声；自相关性（D）是AR模型的基础。

二、多项选择题（共10题，每题2分，共20分）

以下属于数据清洗关键步骤的有（）

A.处理异常值（如用IQR方法识别离群点）

B.对分类变

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年高级数据分析师考试题库（附答案和详细解析）（0117）.docxVIP