- 0
- 0
- 约4.38千字
- 约 14页
- 2026-02-02 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据分析师考试题库与答案解析
一、单选题(共10题,每题2分,合计20分)
1.题目:在处理缺失值时,以下哪种方法适用于数据量较大且缺失比例较高的数据集?
A.删除含有缺失值的行
B.填充均值或中位数
C.使用KNN算法填充
D.插值法
答案:C
解析:当数据量较大且缺失比例较高时,删除行会导致大量数据丢失,填充均值或中位数可能无法反映真实分布,插值法计算复杂。KNN算法通过邻近样本填充,适用于较大数据集且能保留分布特征。
2.题目:某电商平台用户购买行为数据中,购买金额和购买次数的相关系数为0.85,以下结论最准确的是?
A.购买金额越高,用户购买次数越多
B.两者无关联
C.购买金额与购买次数可能存在非线性关系
D.相关系数过高会导致数据冗余
答案:A
解析:相关系数绝对值大于0.8通常表示强正相关,但需注意实际业务逻辑。选项C可能成立,但题目未提供足够信息支持;选项D错误,高相关性不等于冗余。
3.题目:在数据可视化中,以下哪种图表最适合展示不同城市月度销售额趋势?
A.散点图
B.热力图
C.折线图
D.饼图
答案:C
解析:折线图适合展示时间序列数据趋势,热力图适用于二维矩阵数据,饼图用于占比展示。散点图适用于数值型关系探索。
4.题目:某零售企业使用RFM模型分析用户价值,其中R代表?
A.交易频率
B.交易金额
C.最近一次购买时间
D.客户最近一次购买金额
答案:C
解析:RFM模型中R(Recency)指最近一次购买时间,F(Frequency)指交易频率,M(Monetary)指交易金额。
5.题目:假设某城市出租车订单数据中,行程距离与价格的散点图呈强线性关系,以下结论最合理的是?
A.价格与距离完全无关
B.价格受其他因素影响较大
C.距离是影响价格的主要因素
D.数据存在异常值干扰
答案:C
解析:强线性关系表明距离是主要影响因素,但需警惕其他变量(如时间、天气)的协同作用。
6.题目:在SQL查询中,以下哪个函数可用于计算分组后的非重复记录数?
A.COUNT()
B.SUM()
C.DISTINCTCOUNT()
D.MAX()
答案:C
解析:DISTINCTCOUNT()用于统计唯一值数量,COUNT()统计总行数,SUM()求和,MAX()取最大值。
7.题目:某电商A/B测试新界面,控制组转化率为5%,实验组为6%,以下说法正确的是?
A.新界面显著提升转化率
B.需扩大样本量验证
C.差异可能由随机波动导致
D.新界面导致用户流失
答案:C
解析:小样本差异可能未达统计显著性,需进行假设检验(如Z检验)排除随机性。
8.题目:在Python的Pandas库中,以下哪个方法用于合并两个DataFrame?
A.merge()
B.join()
C.append()
D.concat()
答案:A
解析:merge()通过键合并,join()按索引合并,append()纵向追加,concat()按轴合并。选项B和D部分正确,但merge()更常用。
9.题目:某城市共享单车调度系统需预测需求量,以下哪种模型最适合短期预测?
A.线性回归
B.ARIMA
C.GBDT
D.神经网络
答案:B
解析:ARIMA适用于短期时序预测,GBDT和神经网络计算复杂,线性回归无法捕捉时序依赖。
10.题目:在数据清洗中,以下哪个步骤属于异常值处理?
A.缺失值填充
B.数据类型转换
C.标准化
D.离群点检测与修正
答案:D
解析:异常值处理包括检测(如IQR、Z-score)和修正(删除或替换),其他选项分别对应数据完整性、一致性及特征工程。
二、多选题(共5题,每题3分,合计15分)
1.题目:在用户画像构建中,以下哪些指标属于行为特征?
A.浏览时长
B.居住城市
C.购物车商品数
D.客户年龄
E.社交媒体互动量
答案:A,C,E
解析:行为特征反映用户交互行为,B属于人口统计学特征,D属于基本属性。
2.题目:假设某外卖平台需优化配送路线,以下哪些算法可能适用?
A.Dijkstra算法
B.A算法
C.K-means聚类
D.Floyd-Warshall算法
E.贪心算法
答案:A,B,E
解析:Dijkstra/A用于单源最短路径,贪心算法可快速近似解,K-means用于区域划分,Floyd-Warshall用于全对全最短路径。
3.题目:在机器学习模型评估中,以下哪些指标适用于分类问题?
A.MAE
B.AUC
C.RMSE
D.Precision
E.F1-score
答案:B,D,
原创力文档

文档评论(0)