- 0
- 0
- 约3.02千字
- 约 9页
- 2026-02-18 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据分析师笔试题及逻辑思维题含答案
一、数据分析师笔试题(共10题,满分100分)
1.(10分)选择题:以下关于数据挖掘技术的描述,哪项是正确的?
A.决策树算法是一种非参数的监督学习模型
B.聚类分析主要用于处理无标签数据,发现数据中的自然分组
C.逻辑回归适用于多分类问题,而非二分类问题
D.神经网络主要用于无监督学习,而非深度学习任务
答案:B
解析:
A项错误,决策树算法属于参数模型,通过递归划分数据集;
B项正确,聚类分析(如K-means)的核心是发现数据中的隐含模式,适用于无标签数据;
C项错误,逻辑回归本质是二分类模型,通过Sigmoid函数输出概率,扩展到多分类需使用Softmax;
D项错误,神经网络是监督学习的典型代表,深度学习是神经网络的一种复杂形式。
2.(15分)简答题:某电商平台需分析用户购买行为数据,现有数据集包含用户ID、购买金额、购买时间、商品类别、用户年龄、性别等字段。请设计一个数据预处理方案,并说明每一步的必要性。
答案:
方案:
1.缺失值处理(必要性:缺失值可能影响模型稳定性,需填充或删除);
-用户ID:删除异常或空值;
-购买金额/时间:用均值/中位数填充;
-商品类别:用众数填充或删除。
2.异常值检测(必要性:异常值可能扭曲分析结果);
-用3σ原则或箱线图识别并处理购买金额、年龄的异常值。
3.特征工程(必要性:衍生特征能提升模型表现);
-构造“购买时段”(如早/中/晚);
-计算用户购买频率(每日/周/月)。
4.数据标准化(必要性:不同量纲影响模型收敛速度);
-对年龄、金额等数值特征用Z-score标准化。
3.(15分)计算题:给定一个电商用户行为数据集,统计结果如下:
-总用户数:10,000;
-男性用户占比:60%;
-购买过商品的用户占比:30%;
-男性用户中购买商品的比例:40%。
求女性用户中购买商品的比例(保留2位小数)。
答案:
设女性用户占比为40%,则:
男性用户购买商品人数=10,000×60%×40%=2,400;
女性用户购买商品人数=10,000×40%×x;
总购买商品人数=10,000×30%=3,000;
2,400+4,000x=3,000→x=0.25;
女性用户购买比例:25.00%。
4.(10分)选择题:以下哪种SQL语句最适合进行数据去重?
A.`SELECTDISTINCTFROMtable;`
B.`SELECTCOUNT(DISTINCTcolumn)FROMtable;`
C.`DELETEFROMtableWHEREidIN(SELECTDISTINCTidFROMtable);`
D.`SELECTcolumn1,COUNT()FROMtableGROUPBYcolumn1;`
答案:A
解析:
A项正确,`DISTINCT`直接返回唯一值;
B项统计唯一值数量;
C项是删除重复记录的写法;
D项用于计数分组数量。
5.(20分)分析题:某公司A/B测试了两种营销文案,实验组(文案B)点击率8%,对照组(文案A)6%,样本量各5,000。请判断文案B是否显著更优(α=0.05)。
答案:
步骤:
1.假设检验:
-H0:pB=pA;
-H1:pBpA;
2.计算合并点击率:
-总点击数=5,000×8%+5,000×6%=700;
-合并p?=700/10,000=7%;
3.标准化统计量:
-SE=√[p?(1-p?)/n]=√[0.07×0.93/5,000]≈0.0034;
-Z=(0.08-0.06)/0.0034≈5.88;
4.查Z表:α=0.05时临界值为1.645,5.88远超临界值。
结论:文案B显著更优(p0.001)。
6.(10分)填空题:在数据可视化中,使用折线图最适合展示______,而条形图适合比较______。
答案:时间序列变化;多个类别的数值差异
7.(10分)选择题:以下哪个指标最能反映模型预测的稳定性?
A.AUC
B.方差
C.MAE
D.RMSE
答案:B
解析:
方差衡量模型对数据扰动的敏感度,高方差易过拟合;
AUC衡量分类性能;
MAE/RMSE是回归误差指标。
8.(10分)简答题:解释“数据偏差”的两种主要类型及其解决方法。
答案:
1.采样偏差(数据未代表总体):
-解决:分层抽样、增加样本量;
2.系统性偏差(模型假设与实际不符):
-解决:
原创力文档

文档评论(0)