数据分析岗位面试题目及答案（实战版）.docxVIP

下载本文档

0
0
约3.5千字
约 4页
2025-12-03 发布于河北
举报
版权申诉

数据分析岗位面试题目及答案（实战版）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析岗位面试题目及答案（实战版）

一、基础理论与思维题（考察基本功和分析逻辑）

1.题目：什么是数据清洗？常见的数据质量问题有哪些？你会如何处理缺失值？

答案：数据清洗是数据分析的前置步骤，核心是处理原始数据中的错误、不一致、冗余等问题，让数据符合分析标准。常见数据质量问题包括：缺失值、重复值、异常值、数据格式不一致（比如日期有“2023/10/01”和“2023-10-01”两种格式）、逻辑矛盾（比如“年龄150岁”“消费金额为负数”）。

处理缺失值要结合业务场景：①若缺失比例极低（比如1%），且数据随机分布，可直接删除；②若缺失值有业务含义（比如“未填写问卷”），可保留并标记为“未知”；③数值型数据（如收入、年龄）可按均值/中位数填充（偏态分布用中位数，正态分布用均值）；④分类数据（如性别、职业）用众数填充；⑤关键业务字段（如用户ID）缺失，直接剔除对应记录，避免影响分析结果。

2.题目：解释一下什么是同比、环比？什么时候用同比，什么时候用环比？

答案：同比是指本期与上年同期对比（比如2023年10月vs2022年10月），核心作用是消除季节性波动的影响；环比是本期与上一个相邻周期对比（比如2023年10月vs2023年9月），重点反映短期数据变化趋势。

使用场景：①看长期趋势、规避季节因素（比如雪糕销量夏季本身高，用同比看增长更合理）用同比；②看近期波动、短期运营效果（比如活动后一个月的销量变化）用环比。实际分析中常结合两者，比如“10月销量环比增长5%，同比下降3%”，能更全面判断业务情况。

3.题目：什么是A/B测试？设计A/B测试时需要注意什么？

答案：A/B测试是将用户随机分为两组（A组为对照组，B组为实验组），仅改变一个核心变量（比如按钮颜色、文案、定价），通过对比两组的关键指标（如转化率、点击率），判断变量是否有效。

设计时注意：①单一变量原则（只能改一个因素，否则无法归因）；②样本量足够（样本太小会导致结果偶然，可通过统计工具计算最小样本量）；③随机分组（避免用户特征偏差，比如不能把新用户都分到A组）；④测试周期合理（需覆盖完整业务周期，比如电商测试要包含周末，避免短期波动影响）；⑤明确核心指标（比如测试营销文案，核心指标是点击转化率，而非曝光量）。

二、实操技能题（考察工具使用和问题解决能力）

1.题目：用SQL查询“近7天（不含今天）每个用户的下单总金额，仅保留有下单记录的用户，结果按总金额降序排列”，假设表名是orders，字段包括user_id（用户ID）、pay_amount（支付金额）、create_time（下单时间，datetime类型）。

答案：

SELECTuser_id,SUM(pay_amount)AStotal_amount

FROMorders

WHEREcreate_timeBETWEENDATE_SUB(CURDATE(),INTERVAL7DAY)ANDDATE_SUB(CURDATE(),INTERVAL1DAY)

GROUPBYuser_id

HAVINGSUM(pay_amount)0--排除支付金额为0的无效订单

ORDERBYtotal_amountDESC;

思路解析：首先用DATE_SUB函数确定时间范围（近7天不含今天，即今天前1天到前7天）；然后按user_id分组求和，用HAVING过滤无效订单（避免总金额为0的记录）；最后按总金额降序排列。

2.题目：用Excel或Python做数据分析时，如何快速识别数据中的异常值？举2种常用方法。

答案：

方法1：箱线图法（四分位距IQR）。核心逻辑是：异常值是超出“Q1-1.5IQR”或“Q3+1.5IQR”的数值（Q1是下四分位，Q3是上四分位，IQR=Q3-Q1）。Excel中可插入箱线图自动标注异常值；Python用pandas的boxplot()函数可视化，或通过计算阈值筛选（比如df[(df[金额]Q1-1.5IQR)|(df[金额]Q3+1.5IQR)]）。

方法2：标准差法。适用于正态分布的数据，异常值是超出“均值±3倍标准差”的数值（99.7%的数据会落在这个范围内，超出部分可视为异常）。Excel中用STDEV.S计算标准差，再用公式判断；Python用df[(df[数值列]均值-3标准差)|(df[数值列]均值+3标准差)]筛选。

补充：

您可能关注的文档

文档评论（0）

151****9429 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据分析岗位面试题目及答案（实战版）.docxVIP