- 1
- 0
- 约4.9千字
- 约 12页
- 2026-01-27 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年美团数据分析师面试问题集
一、统计学与数据分析基础(共5题,每题4分,总分20分)
1.题目:假设某城市外卖订单的送达时间服从正态分布,均值为30分钟,标准差为5分钟。现随机抽取100个订单,求这100个订单的平均送达时间的95%置信区间。
答案:根据正态分布的性质,样本均值的抽样分布也服从正态分布,其均值为总体均值(30分钟),标准误为总体标准差除以样本量的平方根(5/√100=0.5分钟)。95%置信区间的计算公式为:样本均值±1.96标准误。因此,置信区间为[30-1.960.5,30+1.960.5]=[29.02,30.98]分钟。
2.题目:某商家A和商家B的在线评分分别为4.5和4.8,评分人数分别为1000和800。请问如何比较这两个商家的真实评分水平,并解释你的方法。
答案:可以使用加权平均分或标准误来比较。加权平均分计算为:(4.51000+4.8800)/(1000+800)≈4.64。标准误计算为:√[(1000(4.5-4.64)^2+800(4.8-4.64)^2)/(1000+800)]≈0.08。评分人数较多的商家B评分更稳定,但评分略高。
3.题目:解释什么是假设检验,并说明在美团外卖场景中如何应用假设检验来优化商家推荐算法。
答案:假设检验是通过样本数据判断总体参数是否成立的统计方法。例如,通过A/B测试对比新旧算法的点击率,若新旧算法点击率差异显著(p值0.05),则可判断新算法效果更好。美团可使用假设检验验证新算法是否显著提升了用户下单率。
4.题目:什么是多重共线性?如何在美团外卖用户行为分析中避免多重共线性问题?
答案:多重共线性指自变量之间存在高度相关性,导致模型不稳定。在美团场景中,可使用方差膨胀因子(VIF)检测,若VIF10则需剔除或合并变量。例如,避免同时使用“距离”和“预估时长”作为自变量。
5.题目:解释P值和置信区间的区别,并说明在美团数据报告中如何选择使用其中一种。
答案:P值衡量假设检验结果的显著性,置信区间提供参数估计范围。美团报告应结合使用:用P值验证假设(如新功能提升订单量是否显著),用置信区间展示效果幅度(如提升约10%±2%),更全面反映结果。
二、SQL与数据库查询(共4题,每题5分,总分20分)
1.题目:假设美团有如下三张表:
-`orders`(订单表:`order_id`,`user_id`,`order_time`,`total_amount`)
-`骑手表`(`rider_id`,`rider_name`,`region_id`)
-`region`(区域表:`region_id`,`region_name`)
请查询2026年1月1日至2026年1月31日期间,各区域的平均订单金额,并按平均金额降序排列。
答案:
sql
SELECT
r.region_name,
AVG(o.total_amount)ASavg_amount
FROMorderso
JOINrider_tablerONo.rider_id=r.rider_id
JOINregionONr.region_id=region.region_id
WHEREo.order_timeBETWEEN2026-01-01AND2026-01-31
GROUPBYr.region_name
ORDERBYavg_amountDESC;
2.题目:写出一条SQL语句,统计每个用户在过去30天内下单次数最多的3个品类(假设品类字段为`category`),并显示用户ID、品类和下单次数。
答案:
sql
SELECT
user_id,
category,
COUNT()ASorder_count
FROMorders
WHEREorder_time=DATE_SUB(CURDATE(),INTERVAL30DAY)
GROUPBYuser_id,category
ORDERBYuser_id,order_countDESC
LIMIT3;
3.题目:美团外卖商家表中有`last_login`字段(上次登录时间),请查询2026年2月内未登录过的商家数量(假设当前时间是2026年3月1日)。
答案:
sql
SELECTCOUNT()ASinactive_count
FROMmerchants
WHERElast_login2026-02-01
ORlast_loginISNULL;
4.题目:假设`feedback`表存储用户评价(`order_
原创力文档

文档评论(0)