- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第PAGE页共NUMPAGES页
2026年数据分析师面试知识要点与题目解析
一、统计学基础(3题,每题10分)
题目1:
某电商平台A/B测试了两种推荐算法,算法X和算法Y。算法X触达用户1万次,转化率为5%;算法Y触达用户1.2万次,转化率为4.5%。请问哪种算法效果更好?请解释你的计算方法和逻辑。
题目2:
某城市出租车司机记录了连续一周的每日接单量,数据如下:[120,150,130,160,140,170,180]。请问这组数据的平均数、中位数和众数分别是多少?这些指标反映了哪些信息?
题目3:
假设某产品的用户留存率服从泊松分布,日留存率λ=0.1。请计算:
1.某用户第二天仍活跃的概率;
2.连续三天都活跃的概率。
二、SQL查询(4题,每题10分)
题目1:
表结构:
-`orders`(`order_id`,`user_id`,`order_date`,`total_amount`)
-`users`(`user_id`,`age`,`city`)
-`products`(`product_id`,`category`)
-`order_items`(`order_id`,`product_id`,`quantity`)
查询:请写出SQL语句,统计每个城市用户的平均订单金额,并按平均金额降序排列。
题目2:
表结构:
-`clicks`(`session_id`,`timestamp`,`page_id`)
-`sales`(`session_id`,`purchase_amount`)
查询:请写出SQL语句,计算每个会话的点击次数和购买金额,仅显示点击过至少3次且购买金额超过100的会话。
题目3:
表结构:
-`logins`(`user_id`,`login_time`,`device`)
查询:请写出SQL语句,统计过去30天内每天首次登录的设备类型及其占比。
题目4:
表结构:
-`traffic`(`date`,`source`,`clicks`,`sales`)
查询:请写出SQL语句,统计每个来源渠道的点击转化率(`sales/clicks`),并过滤掉点击量少于50的数据。
三、Python编程(3题,每题10分)
题目1:
请用Python实现以下功能:
1.读取CSV文件`sales_data.csv`(包含`date`,`product`,`revenue`列);
2.计算每个产品的月销售额;
3.将结果保存为新的CSV文件`monthly_sales.csv`。
题目2:
假设有一个列表`data=[10,20,30,-5,40,-15]`,请用Python实现:
1.过滤出所有正数;
2.计算过滤后的数据的中位数;
3.打印结果。
题目3:
请用Python实现一个简单的线性回归模型,输入为`x=[1,2,3,4,5]`,`y=[2,4,5,4,5]`,输出斜率和截距。
四、业务分析(3题,每题10分)
题目1:
某生鲜电商发现周末订单量显著高于工作日,请分析可能的原因并提出至少3个验证假设的方案。
题目2:
某游戏APP新用户次日留存率低,请设计一个A/B测试方案,验证新功能对留存率的提升效果。
题目3:
某银行信用卡部门发现年轻用户(18-25岁)的分期付款率较高,请分析可能的原因并提出至少2个提升老用户分期率的策略。
五、数据可视化(2题,每题10分)
题目1:
假设某电商平台的用户购买行为数据如下:
-产品类别:服装、电子、家居、美妆;
-销售占比:服装30%,电子25%,家居20%,美妆25%。
请设计一个合适的图表类型(如饼图、条形图等)并说明理由。
题目2:
假设某城市共享单车骑行数据如下:
-时间:工作日/周末;
-区域:市中心、郊区;
-骑行量:工作日市中心高,周末郊区高。
请设计一个组合图表(如折线+面积图)并说明如何展示这些信息。
六、机器学习基础(2题,每题10分)
题目1:
解释过拟合和欠拟合的概念,并说明如何通过交叉验证来检测模型是否过拟合。
题目2:
假设你要预测用户的流失概率,数据包含用户属性(年龄、性别等)和流失标签(是/否)。请写出:
1.至少3个特征工程的方法;
2.选择一个合适的模型并说明理由。
答案与解析
一、统计学基础
题目1答案:
算法X的转化率=50次转化/1万次触达=5%;
算法Y的转化率=54次转化/1.2万次触达≈4.5%。
结论:算法X效果更好(5%4.5%)。
解析:直接比较转化率即可,无需复杂计算。
题目2答案:
平均数=(120+150+130+160+140+
原创力文档


文档评论(0)