- 0
- 0
- 约8.01千字
- 约 10页
- 2026-03-04 发布于上海
- 举报
高级数据分析师考试试卷
一、单项选择题(共10题,每题1分,共10分)
在数据清洗过程中,处理缺失值的最佳实践是()
A.直接删除所有包含缺失值的记录
B.根据业务场景选择插值(如均值/中位数)或删除策略
C.对所有数值型变量用均值填充,分类型变量用众数填充
D.忽略缺失值,直接用于模型训练
答案:B
解析:缺失值处理需结合业务场景:若缺失率低且记录重要(如关键用户行为数据),可插值;若缺失率高且无替代信息(如冷门商品销量),可删除。选项A可能导致数据量大幅损失;选项C未考虑变量分布(如偏态分布用中位数更合适);选项D会导致模型偏差。
以下哪种指标最适合评估分类模型的全局预测准确性?()
A.精确率(Precision)
B.召回率(Recall)
C.F1分数
D.准确率(Accuracy)
答案:D
解析:准确率(Accuracy)是预测正确样本占总样本的比例,反映全局准确性;精确率和召回率关注正类预测的质量(适用于类别不平衡场景);F1是二者的调和平均。题目强调“全局”,故选D。
在AB测试中,若实验组与对照组的样本量差异超过30%,最可能导致()
A.统计功效不足
B.P值计算偏差
C.置信区间过宽
D.业务指标不可比
答案:B
解析:AB测试要求两组样本量均衡,否则会影响方差估计,导致P值计算不准确(如大样本组可能放大微小差异)。统计功效不足(A)主要与总样本量有关;置信区间(C)与样本量正相关;业务指标(D)的可比性主要依赖随机分组。
以下哪项不属于数据挖掘中的关联规则分析目标?()
A.发现“啤酒与尿布”的购买关联
B.计算支持度、置信度、提升度
C.预测用户下一次购买时间
D.识别高频项集
答案:C
解析:关联规则分析关注项集间的相关性(如A→B),核心指标是支持度(出现频率)、置信度(A出现时B出现的概率)、提升度(排除随机关联)。预测购买时间属于时序预测或回归任务,故选C。
对于高维稀疏数据(如文本TF-IDF特征),最适合的降维方法是()
A.主成分分析(PCA)
B.线性判别分析(LDA)
C.奇异值分解(SVD)
D.局部线性嵌入(LLE)
答案:C
解析:SVD适用于处理高维稀疏矩阵(如文本),通过分解矩阵提取主要特征;PCA要求数据低维稠密(需计算协方差矩阵);LDA用于有监督分类降维;LLE是流形学习方法,计算复杂度高。
在机器学习模型调参中,“早停法(EarlyStopping)”主要解决的问题是()
A.过拟合
B.欠拟合
C.数据不平衡
D.特征冗余
答案:A
解析:早停法通过监控验证集误差,在误差不再下降时停止训练,避免模型过度学习训练集噪声,本质是解决过拟合。欠拟合(B)需增加模型复杂度;数据不平衡(C)需调整样本权重或采样;特征冗余(D)需降维或特征选择。
以下哪种场景最适合使用决策树模型?()
A.预测连续型房价(万元)
B.识别图像中的猫/狗
C.分析用户分群的关键特征
D.处理高维时间序列数据
答案:C
解析:决策树的可解释性强,适合分析特征重要性(如用户分群的关键变量);预测房价(A)常用线性回归或随机森林;图像识别(B)需卷积神经网络;时间序列(D)需ARIMA或LSTM。
数据伦理中“数据最小化原则”的核心要求是()
A.收集尽可能多的数据以保证分析全面性
B.仅收集完成业务目标所需的最少必要数据
C.对敏感数据进行加密存储
D.向用户公开数据使用方式
答案:B
解析:数据最小化原则要求数据收集范围与业务目标严格相关,避免过度采集(如电商仅需用户地址而非身份证号)。选项A违反原则;C是数据安全措施;D是透明度要求。
在评估推荐系统时,“覆盖率(Coverage)”指标反映的是()
A.推荐结果与用户兴趣的匹配程度
B.系统能够推荐的物品占总物品的比例
C.推荐列表中用户实际点击的比例
D.不同用户推荐结果的多样性
答案:B
解析:覆盖率=被推荐过的物品数/总物品数,衡量系统覆盖长尾商品的能力;匹配程度(A)用准确率;点击比例(C)用点击率;多样性(D)用相似性指标。
时间序列分析中,“季节性(Seasonality)”的典型特征是()
A.数据随时间呈现长期递增/递减趋势
B.固定周期(如12个月)内的重复模式
C.由随机因素引起的短期波动
D.相邻观测值之间的依赖关系
答案:B
解析:季节性指固定周期(年、月、周)内的重复模式(如夏季冰淇淋销量上升);趋势(A)是长期变化;随机波动(C)是噪声;自相关性(D)是AR模型的基础。
二、多项选择题(共10题,每题2分,共20分)
以下属于数据清洗关键步骤的有()
A.处理异常值(如用IQR方法识别离群点)
B.对分类变
原创力文档

文档评论(0)