- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据分析面试题目及详细答案
一、基础理论类
1.请解释什么是描述性统计和推断性统计,以及它们在实际工作中的应用场景
答案:
描述性统计:核心是对已有数据的特征进行概括和展示,不涉及对未知数据的推断。主要通过统计量(如均值、中位数、众数、方差、标准差)和图表(直方图、箱线图、折线图)来呈现数据的集中趋势、离散程度和分布形态。
应用场景:日常数据监控(如月度销售额汇总、用户活跃度统计)、数据报告基础呈现(如APP日活DAU、留存率的直观展示)、数据质量初步校验(如通过标准差判断某指标是否存在异常波动)。
推断性统计:基于样本数据去推断总体的特征和规律,核心是“用部分推断整体”,会伴随概率估计和置信区间。常见方法包括假设检验、回归分析、方差分析等。
应用场景:产品AB测试(通过样本用户的转化差异,推断新功能对全体用户的影响)、市场调研(通过部分消费者的调研数据,推断整个目标客群的偏好)、风险预测(基于历史样本数据构建回归模型,推断未来业务风险概率)。
2.什么是数据的离散程度?常用的衡量指标有哪些,它们的区别是什么
答案:
数据的离散程度是指数据集中各数据点偏离中心值(如均值、中位数)的程度,反映数据的波动情况和稳定性,离散程度越大,说明数据越不稳定、波动越剧烈。
常用指标及区别:
1.极差:最大值-最小值。优点是计算简单、直观;缺点是只受极端值影响,忽略中间数据的分布,稳定性差。比如某团队薪资极差大,可能只是个别高管薪资极高,不能反映普通员工薪资波动。
2.方差:各数据点与均值差的平方和除以数据个数(总体方差)或样本个数-1(样本方差)。优点是考虑了所有数据点与均值的偏离;缺点是平方后放大了极端值的影响,且单位是原数据单位的平方,不直观。
3.标准差:方差的平方根。优点是解决了方差单位不直观的问题,单位与原数据一致,是最常用的指标;缺点同样会受极端值影响。
4.四分位距(IQR):上四分位数(Q3)-下四分位数(Q2)。优点是不受极端值影响,能反映数据中间50%部分的离散程度;缺点是忽略了两端数据的分布情况。常用于异常值检测(如超过Q3+1.5IQR或低于Q1-1.5IQR的为异常值)。
二、技术实操类
1.用SQL查询:某电商平台2024年10月,每个用户的下单总金额、下单次数,要求只保留有下单记录的用户,结果按总金额降序排列
答案:
假设存在订单表orders,核心字段:user_id(用户ID)、order_id(订单ID)、pay_amount(支付金额)、create_time(下单时间)。
sql
SELECT
user_id,
SUM(pay_amount)AStotal_pay,--下单总金额
COUNT(order_id)ASorder_count--下单次数(按订单ID计数,避免重复)
FROM
orders
WHERE
create_timeBETWEEN2024-10-0100:00:00AND2024-10-3123:59:59--筛选2024年10月订单
GROUPBY
user_id--按用户分组
HAVING
COUNT(order_id)0--保留有下单记录的用户(GROUPBY后筛选,用HAVING)
ORDERBY
total_payDESC;--按总金额降序排列
补充说明:
1.若存在取消订单、退款订单,需先筛选有效订单(如增加WHEREorder_status=已支付),避免统计无效金额;
2.计数时优先用order_id(唯一标识),而非user_id,防止同一用户同一订单被重复统计;
3.时间筛选也可使用DATE_FORMAT(create_time,%Y-%m)=2024-10,但BETWEEN在索引优化上更有优势(若create_time有索引)。
2.用Python进行数据清洗:如何处理数据中的缺失值和异常值?请分别说明常用方法及适用场景
答案:
###一、缺失值处理
核心原则:先分析缺失值原因(随机缺失/非随机缺失),再选择处理方法,避免盲目填充或删除导致数据偏差。
1.删除法:
适用场景:缺失值占比极低(如5%)、缺失值随机分布、删除后不影响样本代表性。
方法:df.dropna(subset=[字段名],inplace=True)(按字段删除缺失行);df.dropna(axis=1,thresh=len(df)*0.95)(删除缺失率5%的列)。
注意:避免缺失值占比高时使用(如20%),否则会丢失大量有效数据。
2.填充法:
(1)数值型数据:
-均值填充:适用场景(数据分布
您可能关注的文档
- 操作系统面试题及详细答案.docx
- 当兵心理测试题及详细答案.docx
- 导游证考试题库及详细答案.docx
- 导游资格考试题库全集及详细答案.docx
- 对联专项测试题及详细答案.docx
- 感情状态自测题及详细答案.docx
- 工程监理试题及详细答案.docx
- 工会法知识竞赛试题及详细答案.docx
- 护理学试题及详细答案.docx
- 护士考编模拟试题及详细答案.docx
- 装修合同诉求书模板(3篇).docx
- 2026年海南工商职业学院单招职业技能测试必刷测试卷及答案1套.docx
- 云石机安全培训ppt.pptx
- 2026年海南工商职业学院单招综合素质考试题库最新.docx
- 2025云南临沧沧源佤族自治县公安局招聘警务辅助人员12人备考题库及完整答案详解1套.docx
- 2026年海南外国语职业学院单招职业适应性考试题库完美版.docx
- 人教版一年级语文下册期末考试试卷.docx
- 2025云南临沧沧源佤族自治县公安局招聘警务辅助人员12人备考题库及完整答案详解.docx
- 2025年出版行业年终汇报框架模板.pptx
- 2026年海南外国语职业学院单招职业适应性测试题库带答案.docx
原创力文档


文档评论(0)