数据分析面试题目及详细答案.docxVIP

下载本文档

0
0
约7.9千字
约 10页
2025-12-22 发布于河北
举报
版权申诉

数据分析面试题目及详细答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析面试题目及详细答案

一、基础理论类

1.请解释什么是描述性统计和推断性统计，以及它们在实际工作中的应用场景

答案：

描述性统计：核心是对已有数据的特征进行概括和展示，不涉及对未知数据的推断。主要通过统计量（如均值、中位数、众数、方差、标准差）和图表（直方图、箱线图、折线图）来呈现数据的集中趋势、离散程度和分布形态。

应用场景：日常数据监控（如月度销售额汇总、用户活跃度统计）、数据报告基础呈现（如APP日活DAU、留存率的直观展示）、数据质量初步校验（如通过标准差判断某指标是否存在异常波动）。

推断性统计：基于样本数据去推断总体的特征和规律，核心是“用部分推断整体”，会伴随概率估计和置信区间。常见方法包括假设检验、回归分析、方差分析等。

应用场景：产品AB测试（通过样本用户的转化差异，推断新功能对全体用户的影响）、市场调研（通过部分消费者的调研数据，推断整个目标客群的偏好）、风险预测（基于历史样本数据构建回归模型，推断未来业务风险概率）。

2.什么是数据的离散程度？常用的衡量指标有哪些，它们的区别是什么

答案：

数据的离散程度是指数据集中各数据点偏离中心值（如均值、中位数）的程度，反映数据的波动情况和稳定性，离散程度越大，说明数据越不稳定、波动越剧烈。

常用指标及区别：

1.极差：最大值-最小值。优点是计算简单、直观；缺点是只受极端值影响，忽略中间数据的分布，稳定性差。比如某团队薪资极差大，可能只是个别高管薪资极高，不能反映普通员工薪资波动。

2.方差：各数据点与均值差的平方和除以数据个数（总体方差）或样本个数-1（样本方差）。优点是考虑了所有数据点与均值的偏离；缺点是平方后放大了极端值的影响，且单位是原数据单位的平方，不直观。

3.标准差：方差的平方根。优点是解决了方差单位不直观的问题，单位与原数据一致，是最常用的指标；缺点同样会受极端值影响。

4.四分位距（IQR）：上四分位数（Q3）-下四分位数（Q2）。优点是不受极端值影响，能反映数据中间50%部分的离散程度；缺点是忽略了两端数据的分布情况。常用于异常值检测（如超过Q3+1.5IQR或低于Q1-1.5IQR的为异常值）。

二、技术实操类

1.用SQL查询：某电商平台2024年10月，每个用户的下单总金额、下单次数，要求只保留有下单记录的用户，结果按总金额降序排列

答案：

假设存在订单表orders，核心字段：user_id（用户ID）、order_id（订单ID）、pay_amount（支付金额）、create_time（下单时间）。

sql

SELECT

user_id,

SUM(pay_amount)AStotal_pay,--下单总金额

COUNT(order_id)ASorder_count--下单次数（按订单ID计数，避免重复）

FROM

orders

WHERE

create_timeBETWEEN2024-10-0100:00:00AND2024-10-3123:59:59--筛选2024年10月订单

GROUPBY

user_id--按用户分组

HAVING

COUNT(order_id)0--保留有下单记录的用户（GROUPBY后筛选，用HAVING）

ORDERBY

total_payDESC;--按总金额降序排列

补充说明：

1.若存在取消订单、退款订单，需先筛选有效订单（如增加WHEREorder_status=已支付），避免统计无效金额；

2.计数时优先用order_id（唯一标识），而非user_id，防止同一用户同一订单被重复统计；

3.时间筛选也可使用DATE_FORMAT(create_time,%Y-%m)=2024-10，但BETWEEN在索引优化上更有优势（若create_time有索引）。

2.用Python进行数据清洗：如何处理数据中的缺失值和异常值？请分别说明常用方法及适用场景

答案：

###一、缺失值处理

核心原则：先分析缺失值原因（随机缺失/非随机缺失），再选择处理方法，避免盲目填充或删除导致数据偏差。

1.删除法：

适用场景：缺失值占比极低（如5%）、缺失值随机分布、删除后不影响样本代表性。

方法：df.dropna(subset=[字段名],inplace=True)（按字段删除缺失行）；df.dropna(axis=1,thresh=len(df)*0.95)（删除缺失率5%的列）。

注意：避免缺失值占比高时使用（如20%），否则会丢失大量有效数据。

2.填充法：

（1）数值型数据：

-均值填充：适用场景（数据分布

您可能关注的文档

文档评论（0）

151****9429 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据分析面试题目及详细答案.docxVIP