- 0
- 0
- 约4.23千字
- 约 12页
- 2026-02-26 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据分析师面试常见问题及高频考点解析
一、统计学基础(5题,每题6分,共30分)
1.描述性统计相关问题
题目:某电商平台2025年Q1某商品月销量数据如下:[120,150,180,200,220,250,300,280,260,240,220,200]。计算该数据的均值、中位数、众数,并解释这些指标在业务分析中的意义。
答案:
-均值=(120+150+180+200+220+250+300+280+260+240+220+200)/12≈220.83
-中位数=排序后第6.5个数据(220+250)/2=235
-众数:无重复数据,不适用(可改为“无众数”或“需重新取样”)
解析:均值反映平均水平,中位数对异常值不敏感,众数用于高频行为分析。电商可利用中位数判断销量稳定性,均值关注整体趋势。
2.假设检验相关问题
题目:某广告活动声称点击率提升至5%,抽样1000次发现点击率4.8%,α=0.05,判断该广告效果是否显著?
答案:
-H0:点击率=5%
-H1:点击率≠5%
-Z统计量=(4.8%-5%)/√(5%95%/1000)≈-1.02
-P值≈20.1539=0.30780.05,不拒绝H0
解析:需考虑样本量与显著性水平,若改为“抽样500次”则Z≈-1.64,P0.05拒绝原假设。
3.相关性分析
题目:某外卖平台数据显示,客单价与订单频次呈负相关(r=-0.6),是否说明客单价高导致频次低?
答案:相关性不代表因果性,需结合业务场景分析(如高单价用户更注重品质)或考虑遗漏变量(如促销活动影响)。
4.抽样方法
题目:某社区人口30万,需抽样2000人调研消费习惯,请设计抽样方案并说明理由。
答案:
-分层抽样:按年龄/收入分层
-随机分层:各层按比例抽取(如20-30岁占25%,抽样500人)
解析:分层能保证各群体代表性,适合地域性业务。
5.离散分布
题目:某APP用户每日使用时长分布为:0-30分钟(40%)、30-60分钟(30%)、60+分钟(30%),计算P(用户使用超过30分钟)。
答案:P=30%+30%=60%
二、SQL查询(8题,每题5分,共40分)
1.多表连接查询
题目:表A(订单表,order_id,user_id,amount),表B(用户表,user_id,city),查询北京用户总消费额。
答案:
sql
SELECTSUM(A.amount)
FROMAJOINBONA.user_id=B.user_id
WHEREB.city=北京
2.子查询与窗口函数
题目:表C(商品表,product_id,category,price),计算每个分类的平均价格及排名。
答案:
sql
SELECTproduct_id,category,price,AVG(price)OVER(PARTITIONBYcategory)ASavg_price,
RANK()OVER(PARTITIONBYcategoryORDERBYpriceDESC)ASrank
3.聚合与分组
题目:表D(退款表,order_id,refund_date),统计每月退款笔数及环比增长率。
答案:
sql
SELECTDATE_FORMAT(refund_date,%Y-%m)ASmonth,COUNT()ASrefund_count,
(LAG(COUNT())OVER(ORDERBYDATE_FORMAT(refund_date,%Y-%m))/COUNT()-1)100ASgrowth_rate
4.条件查询
题目:表E(员工表,emp_id,salary,department),查询薪资高于部门平均薪资的员工数。
答案:
sql
SELECTCOUNT()
FROMEWHEREsalary(
SELECTAVG(salary)FROMEGROUPBYdepartment
)
5.特殊函数
题目:表F(日志表,timestamp,event),统计2025-01-01后每个小时的登录次数。
答案:
sql
SELECTDATE_FORMAT(timestamp,%Y-%m-%d%H)AShour,COUNT()ASlogin_count
FROMFWHEREtimestamp2025-01-0100:00:00
GROUPBYhour
6.分页与排序
题目:表G(订单表),按金额降序排列,每页显示10条,查询
原创力文档

文档评论(0)