- 0
- 0
- 约3.49千字
- 约 10页
- 2026-01-20 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据分析师面试准备攻略及题目
一、选择题(共5题,每题2分,共10分)
题目:
1.在处理缺失值时,以下哪种方法在数据量较大且缺失比例不高的情况下通常效果最好?
A.删除含有缺失值的样本
B.使用均值/中位数/众数填充
C.使用KNN算法填充
D.插值法填充
2.以下哪个指标最能反映模型的过拟合情况?
A.AUC
B.Accuracy
C.Bias
D.Variance
3.在数据仓库中,星型模型的中心是?
A.雪花表
B.事实表
C.维度表
D.聚合表
4.以下哪种SQL语句可以用来查找某个部门中工资最高的员工?
A.`SELECTFROMemployeesORDERBYsalaryDESCLIMIT1`
B.`SELECTMAX(salary)FROMemployees`
C.`SELECTFROMemployeesWHEREsalary=(SELECTMAX(salary)FROMemployees)`
D.`SELECTFROMemployeesGROUPBYdepartmentORDERBYsalaryDESCLIMIT1`
5.在进行时间序列分析时,如果数据存在明显的季节性波动,最适合的模型是?
A.ARIMA
B.Prophet
C.LSTM
D.Logistic回归
答案与解析:
1.C(KNN填充利用近邻样本的值,在数据量较大且缺失比例不高时效果较好,避免单一统计量偏差。)
2.D(Variance反映模型对训练数据的敏感度,过拟合时Variance高,Bias低。)
3.B(星型模型由中心的事实表和周围的维度表构成。)
4.C(子查询确保返回工资最高的员工,其他选项无法满足条件。)
5.B(Prophet模型专为处理时间序列中的季节性波动设计。)
二、简答题(共4题,每题5分,共20分)
题目:
1.简述数据清洗的步骤及其重要性。
2.解释什么是特征工程,并举例说明如何对文本数据进行特征工程。
3.描述在线A/B测试的基本流程,并说明如何评估测试结果的有效性。
4.在数据可视化中,如何选择合适的图表类型来展示不同类型的数据?(例如,比较、趋势、分布等)
答案与解析:
1.数据清洗步骤及重要性:
-步骤:
-缺失值处理(删除/填充);
-异常值检测与处理(删除/修正);
-数据格式统一(日期、单位等);
-重复值处理;
-数据类型转换。
-重要性:
-提高数据质量,减少分析偏差;
-确保模型训练的准确性;
-节省后续分析时间。
2.特征工程及文本数据示例:
-定义:通过组合、转换原始特征生成新特征,提升模型性能。
-文本数据示例:
-分词:将“机器学习”拆分为“机器”“学习”;
-TF-IDF:提取词频-逆文档频率特征;
-N-gram:生成连续词组特征(如“机器学习”→“机器学习”“学习”)。
3.在线A/B测试流程及有效性评估:
-流程:
-分组(对照组与实验组);
-设定目标指标(如点击率);
-随机分配流量;
-收集数据并对比结果。
-有效性评估:
-统计显著性:p值0.05;
-业务价值:实验组是否提升ROI。
4.数据可视化图表选择:
-比较:柱状图/条形图;
-趋势:折线图;
-分布:箱线图/直方图;
-关系:散点图/热力图。
三、计算题(共2题,每题10分,共20分)
题目:
1.假设某电商平台A/B测试了两种促销策略,对照组(策略A)的转化率为5%,实验组(策略B)的转化率为6%,实验组流量为10,000人,对照组流量为9,000人。请计算策略B是否显著优于策略A(α=0.05)。
2.给定以下数据:
|X|Y|
|||
|1|2|
|2|3|
|3|5|
|4|4|
计算X和Y的相关系数(Pearson)。
答案与解析:
1.转化率提升显著性检验:
-公式:
Z=(p1-p2)/sqrt(p(1-p)(1/n1+1/n2))
p=(n1p1+n2p2)/(n1+n2)
-计算:
p=(90000.05+100000.06)/19000≈0.0579
Z=(0.06-0.05)/sqrt(0.0579(1-0.0579)(1/10000+1/9000))≈1.14
p-value≈0.1250.05,不显著。
2.Pearson相关系数计算:
-公式:
r=cov(X,
原创力文档

文档评论(0)