- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第PAGE页共NUMPAGES页
2026年数据分析师面试题及行为面试应对策略含答案
一、技术能力测试(共5题,每题10分,总分50分)
1.数据处理与SQL查询(10分)
题目:
假设你正在为一个电商公司分析用户购买行为数据,表结构如下:
-`orders`(订单表):`order_id`(订单ID,主键),`user_id`(用户ID),`order_date`(订单日期),`total_amount`(订单总金额)
-`order_items`(订单明细表):`order_item_id`(明细ID,主键),`order_id`(订单ID,外键),`product_id`(商品ID),`quantity`(购买数量)
-`products`(商品表):`product_id`(商品ID,主键),`product_category`(商品类别)
请写出以下SQL查询:
(1)查询2025年12月每个商品类别的总销售额。
(2)查询每个用户的平均订单金额,并筛选出平均订单金额大于500的用户。
答案:
(1)sql
SELECTproduct_category,SUM(total_amount)AStotal_sales
FROMorderso
JOINorder_itemsoiONo.order_id=oi.order_id
JOINproductspONoi.product_id=p.product_id
WHEREDATE(o.order_date)BETWEEN2025-12-01AND2025-12-31
GROUPBYproduct_category;
(2)sql
SELECTuser_id,AVG(total_amount)ASavg_order_amount
FROMorders
GROUPBYuser_id
HAVINGAVG(total_amount)500;
解析:
第(1)题需要关联`orders`、`order_items`和`products`表,通过`product_category`分组统计总销售额。注意日期范围筛选。第(2)题使用`AVG`计算平均订单金额,并用`HAVING`过滤条件。
2.Python数据分析(10分)
题目:
给定以下Python数据:
python
importpandasaspd
data={user_id:[1,2,3,4,5],
purchase_amount:[120,300,150,0,500],
last_purchase_days:[30,0,120,5,90]}
df=pd.DataFrame(data)
请用Python完成以下任务:
(1)计算每个用户的购买金额中位数。
(2)对`last_purchase_days`列进行分箱,分为“近期”(≤30天)、“中期”(31-90天)、“长期”(90天),并统计各分箱的用户数量。
答案:
(1)python
median_purchase=df[purchase_amount].median()
print(f购买金额中位数:{median_purchase})
(2)python
bins=[-1,30,90,float(inf)]
labels=[近期,中期,长期]
df[purchase_period]=pd.cut(df[last_purchase_days],bins=bins,labels=labels)
period_counts=df[purchase_period].value_counts().sort_index()
print(period_counts)
解析:
第(1)题使用`median`计算中位数。第(2)题通过`pd.cut`进行分箱,`bins`定义分界点,`labels`定义标签。`value_counts`统计各分箱数量。
3.机器学习基础(10分)
题目:
假设你要预测电商用户的流失概率,以下描述哪个选项是正确的?
A.过拟合会导致模型在训练集上表现好,但在测试集上表现差。
B.使用交叉验证可以更准确地评估模型性能。
C.决策树算法属于非参数模型。
D.在处理不平衡数据时,仅使用准确率作为评价指标是合理的。
答案:B
解析:
A错误,过拟合会导致模型泛化能力差。B正确,交叉验证通过多次训练测试分割,更稳定地评估模型。C错误,决策树是参数模型。D错误,不平衡数据应关注召回率或F1分数。
4.大数据处理(10分)
题目:
某电商公司每天产生大量用户行为日志,存储在HDFS上。假设你
您可能关注的文档
最近下载
- 大学生职业生涯规划书(个人通用)10篇.pdf VIP
- 2025年基金从业资格证考试题库及参考答案(考试直接用).docx VIP
- 商品解密-Trafigura.PDF
- 统编版初中九年级上册语文精品教学课件 4. 第四单元 写作 学习缩写.ppt VIP
- 2025年基金从业资格证考试题库附参考答案(考试直接用).docx VIP
- 2025年基金从业资格证考试题库附参考答案【考试直接用】.docx VIP
- 法律资讯-上海浦瑞律师事务所.pdf VIP
- 2025年广东中考历史道法试卷及答案.doc VIP
- 门面租赁合同模板.doc VIP
- 制药设备与车间设计-18 车间布置与管道设计.pptx VIP
原创力文档


文档评论(0)