- 0
- 0
- 约5.73千字
- 约 15页
- 2026-02-12 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据面试题及数据分析工具掌握程度含答案
一、选择题(共5题,每题2分)
说明:以下题目主要考察对中国互联网行业数据应用的理解及基本数据分析工具操作知识。
1.题(1分):在电商用户行为分析中,哪种指标最能反映用户粘性?(A)购买频率(B)客单价(C)复购率(D)退货率
答案:C
解析:复购率直接衡量用户持续消费的意愿,是反映粘性的核心指标。购买频率可能受促销影响,客单价反映消费能力,退货率体现商品质量。
2.题(1分):SQL中,以下哪个函数用于计算分组后的非空值数量?(A)SUM(B)COUNT(C)AVG(D)MAX
答案:B
解析:COUNT函数统计非空值数量,SUM求和,AVG计算平均值,MAX取最大值。电商场景中常用于统计活跃用户数。
3.题(1分):在Python中,处理缺失值最常用的库是?(A)Pandas(B)NumPy(C)Matplotlib(D)SciPy
答案:A
解析:Pandas的`fillna`、`dropna`等函数专门用于缺失值处理。NumPy可处理但功能有限,Matplotlib和SciPy偏向可视化与统计。
4.题(1分):以下哪个属于A/B测试的常见错误?(A)设置多个对照组(B)样本量不足(C)目标明确(D)数据分析及时
答案:A
解析:A/B测试应设置单一对照组,多个组会导致结果混淆。样本量不足影响统计显著性,目标明确和及时分析是原则要求。
5.题(1分):电商行业常用的漏斗分析指标不包括?(A)浏览-加购(B)加购-支付(C)支付-复购(D)注册-登录
答案:D
解析:漏斗分析关注业务转化路径,如注册-激活、浏览-加购-支付等。注册-登录属于用户初始行为,与交易漏斗关联度低。
二、简答题(共3题,每题5分)
说明:考察对数据分析流程及工具的理解。
6.题(5分):简述电商行业用户分群的核心步骤及常用方法。
答案:
核心步骤:
(1)数据收集:用户行为日志、交易数据、用户属性等;
(2)特征工程:构建RFM模型(Recency,Frequency,Monetary)、用户活跃度等;
(3)聚类分析:使用K-Means或DBSCAN算法,根据消费能力、活跃时段等维度分群;
(4)结果验证:用业务指标(如不同群组的客单价差异)评估分群合理性。
常用方法:RFM、用户生命周期价值(LTV)、行为路径分析。
7.题(5分):解释SQL中JOIN操作的应用场景及类型。
答案:
应用场景:关联多表数据,如用户表与订单表通过ID关联,获取用户订单详情。
类型:
-INNERJOIN:仅返回两表匹配的记录;
-LEFTJOIN:保留左表所有记录,右表不匹配时填NULL;
-RIGHTJOIN:保留右表所有记录,左表不匹配时填NULL;
-FULLJOIN:返回两表所有记录,不匹配部分填NULL。
电商场景中,LEFTJOIN常用于查询用户订单(即用户可能无订单)。
8.题(5分):描述Python中Pandas处理异常值的常见方法。
答案:
方法:
(1)箱线图法:通过IQR(四分位距)识别异常值,如`df[(df[price]Q1-1.5IQR)|(df[price]Q3+1.5IQR)]`;
(2)Z-score法:计算标准化分数,如`df[score].abs()3`;
(3)分位数法:如剔除`df[value].quantile(0.99)`以上的值;
(4)业务规则校验:如电商中价格小于0的记录直接剔除。
处理方式:可删除、替换(均值/中位数)或保留(需结合业务判断)。
三、操作题(共2题,每题10分)
说明:考察SQL和Python数据分析实操能力。
9.题(10分):SQL操作题
问题描述:
给定以下表结构:
`orders`(order_id,user_id,order_date,amount)
`products`(product_id,category)
`order_items`(order_item_id,order_id,product_id,quantity)
要求:
(1)查询2025年各产品分类的销售额排名(按销售额降序);
(2)筛选出销售额排名前三的分类,并统计其订单总数。
答案:
sql
WITHsales_by_categoryAS(
SELECT
p.category,
SUM(oi.quantityo.amount)AStotal_sales
FROMorderso
JOINorder_itemsoiONo.order_id=oi.order_id
原创力文档

文档评论(0)