数据分析面试题及参考答案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据分析面试题及参考答案

一、基础统计与思维题(共3题)

1.题目:什么是P值?在A/B测试中,P值=0.03意味着什么?你会如何向非技术同事解释这个结果?

参考答案:

P值是“在原假设成立的情况下,观察到当前样本结果(或更极端结果)的概率”。原假设通常是“A、B两组无差异”。

A/B测试中P值=0.03,说明:如果A、B方案真的没区别,我们观测到当前这种差异(比如B组转化率比A组高5%)的概率只有3%,远低于常用的5%显著性水平。

向非技术同事解释:“我们做了两组实验,B方案比A方案效果好的‘巧合概率’只有3%,相当于100次实验里只有3次可能是偶然,所以可以放心认为B方案确实更有效。”

2.题目:什么是幸存者偏差?举一个数据分析中可能遇到的例子,并说明如何避免?

参考答案:

幸存者偏差是指只关注“筛选后留存下来的样本”,忽略了被筛选掉的样本,导致结论偏差。

数据分析示例:某电商分析“高客单价用户的复购率”,只统计了“当前仍活跃的高客单价用户”,却忽略了已经流失的高客单价用户——实际流失的这部分用户复购率极低,最终导致计算出的复购率虚高。

避免方法:①明确分析对象的完整范围(比如包含流失用户);②检查样本是否存在“筛选门槛”(如仅统计活跃用户);③补充被忽略群体的数据(如流失用户的历史行为)。

3.题目:如何判断一组数据是否符合正态分布?至少说出2种实用方法。

参考答案:

实用方法有3种,优先结合使用:

①可视化法:画直方图(看是否呈现“钟形曲线”)、Q-Q图(若数据点贴近对角线,则符合正态分布);

②统计检验法:Shapiro-Wilk检验(样本量50时更准确)、Kolmogorov-Smirnov检验(样本量较大时用),若P值0.05,则不能拒绝“数据符合正态分布”的假设;

③描述统计法:看均值、中位数、众数是否接近(正态分布中三者基本相等),偏度(接近0)和峰度(接近3)是否符合标准。

二、SQL操作题(共2题,基于电商场景:表orders(订单表)、users(用户表))

表结构说明:

users:user_id(用户ID,主键)、register_time(注册时间)、city(城市)

orders:order_id(订单ID,主键)、user_id(外键,关联users)、order_time(下单时间)、pay_amount(支付金额)、order_status(订单状态:1-已支付,2-未支付,3-已取消)

1.题目:查询2023年1月1日-2023年1月31日期间,各城市的“已支付订单数”、“总支付金额”、“人均支付金额”(仅统计有支付订单的用户),结果按总支付金额降序排列。

参考答案:

SELECT

u.city,

COUNT(DISTINCTo.order_id)ASpaid_order_count,--避免同一用户多订单重复统计

SUM(o.pay_amount)AStotal_pay_amount,

SUM(o.pay_amount)/COUNT(DISTINCTo.user_id)ASper_capita_pay--人均=总金额/支付用户数

FROM

usersu

JOIN

ordersoONu.user_id=o.user_id

WHERE

o.order_timeBETWEEN2023-01-0100:00:00AND2023-01-3123:59:59

ANDo.order_status=1--仅已支付

GROUPBY

u.city

ORDERBY

total_pay_amountDESC;

2.题目:查询“2023年1月注册的用户”中,在2月有至少2笔已支付订单的用户ID及订单总金额。

参考答案:

SELECT

o.user_id,

SUM(o.pay_amount)AStotal_order_amount

FROM

orderso

JOIN

usersuONo.user_id=u.user_id

WHERE

u.register_timeBETWEEN2023-01-0100:00:00AND2023-01-3123:59:59--1月注册

ANDo.order_timeBETWEEN2023-02-0100:00:00AND2023-02-2823:59:59--2月下

文档评论(0)

151****9429 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档