数据分析面试题目及详细答案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据分析面试题目及详细答案

一、基础理论类

1.请解释什么是描述性统计和推断性统计,以及它们在实际工作中的应用场景

答案:

描述性统计:核心是对已有数据的特征进行概括和展示,不涉及对未知数据的推断。主要通过统计量(如均值、中位数、众数、方差、标准差)和图表(直方图、箱线图、折线图)来呈现数据的集中趋势、离散程度和分布形态。

应用场景:日常数据监控(如月度销售额汇总、用户活跃度统计)、数据报告基础呈现(如APP日活DAU、留存率的直观展示)、数据质量初步校验(如通过标准差判断某指标是否存在异常波动)。

推断性统计:基于样本数据去推断总体的特征和规律,核心是“用部分推断整体”,会伴随概率估计和置信区间。常见方法包括假设检验、回归分析、方差分析等。

应用场景:产品AB测试(通过样本用户的转化差异,推断新功能对全体用户的影响)、市场调研(通过部分消费者的调研数据,推断整个目标客群的偏好)、风险预测(基于历史样本数据构建回归模型,推断未来业务风险概率)。

2.什么是数据的离散程度?常用的衡量指标有哪些,它们的区别是什么

答案:

数据的离散程度是指数据集中各数据点偏离中心值(如均值、中位数)的程度,反映数据的波动情况和稳定性,离散程度越大,说明数据越不稳定、波动越剧烈。

常用指标及区别:

1.极差:最大值-最小值。优点是计算简单、直观;缺点是只受极端值影响,忽略中间数据的分布,稳定性差。比如某团队薪资极差大,可能只是个别高管薪资极高,不能反映普通员工薪资波动。

2.方差:各数据点与均值差的平方和除以数据个数(总体方差)或样本个数-1(样本方差)。优点是考虑了所有数据点与均值的偏离;缺点是平方后放大了极端值的影响,且单位是原数据单位的平方,不直观。

3.标准差:方差的平方根。优点是解决了方差单位不直观的问题,单位与原数据一致,是最常用的指标;缺点同样会受极端值影响。

4.四分位距(IQR):上四分位数(Q3)-下四分位数(Q2)。优点是不受极端值影响,能反映数据中间50%部分的离散程度;缺点是忽略了两端数据的分布情况。常用于异常值检测(如超过Q3+1.5IQR或低于Q1-1.5IQR的为异常值)。

二、技术实操类

1.用SQL查询:某电商平台2024年10月,每个用户的下单总金额、下单次数,要求只保留有下单记录的用户,结果按总金额降序排列

答案:

假设存在订单表orders,核心字段:user_id(用户ID)、order_id(订单ID)、pay_amount(支付金额)、create_time(下单时间)。

sql

SELECT

user_id,

SUM(pay_amount)AStotal_pay,--下单总金额

COUNT(order_id)ASorder_count--下单次数(按订单ID计数,避免重复)

FROM

orders

WHERE

create_timeBETWEEN2024-10-0100:00:00AND2024-10-3123:59:59--筛选2024年10月订单

GROUPBY

user_id--按用户分组

HAVING

COUNT(order_id)0--保留有下单记录的用户(GROUPBY后筛选,用HAVING)

ORDERBY

total_payDESC;--按总金额降序排列

补充说明:

1.若存在取消订单、退款订单,需先筛选有效订单(如增加WHEREorder_status=已支付),避免统计无效金额;

2.计数时优先用order_id(唯一标识),而非user_id,防止同一用户同一订单被重复统计;

3.时间筛选也可使用DATE_FORMAT(create_time,%Y-%m)=2024-10,但BETWEEN在索引优化上更有优势(若create_time有索引)。

2.用Python进行数据清洗:如何处理数据中的缺失值和异常值?请分别说明常用方法及适用场景

答案:

###一、缺失值处理

核心原则:先分析缺失值原因(随机缺失/非随机缺失),再选择处理方法,避免盲目填充或删除导致数据偏差。

1.删除法:

适用场景:缺失值占比极低(如5%)、缺失值随机分布、删除后不影响样本代表性。

方法:df.dropna(subset=[字段名],inplace=True)(按字段删除缺失行);df.dropna(axis=1,thresh=len(df)*0.95)(删除缺失率5%的列)。

注意:避免缺失值占比高时使用(如20%),否则会丢失大量有效数据。

2.填充法:

(1)数值型数据:

-均值填充:适用场景(数据分布

文档评论(0)

151****9429 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档