- 0
- 0
- 约7.79千字
- 约 24页
- 2026-02-11 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年互联网金融公司高级数据分析师面试题及答案
一、统计学与数据挖掘(5题,每题10分)
1.题目:
某互联网金融平台A/B测试了两种不同的推荐算法,算法X和算法Y,覆盖用户群体均为1000人。算法X的点击率(CTR)为5%,算法Y的CTR为6%。请计算两种算法的CTR置信区间(95%置信水平),并判断哪种算法显著更优?(假设点击数据服从二项分布)
答案:
计算步骤:
(1)二项分布参数:
算法X:n=1000,p=0.05,1-p=0.95
算法Y:n=1000,p=0.06,1-p=0.94
(2)标准误差计算公式:
SE=√[p(1-p)/n]
算法X:SE_X=√[0.05×0.95/1000]≈0.0216
算法Y:SE_Y=√[0.06×0.94/1000]≈0.0242
(3)Z值(95%置信水平):1.96
置信区间计算公式:p±Z×SE
算法X:5%±1.96×0.0216→[4.73%,5.27%]
算法Y:6%±1.96×0.0242→[5.75%,6.25%]
结论:算法Y的置信区间(5.75%-6.25%)与算法X(4.73%-5.27%)无交集,因此算法Y显著更优。
解析:
-置信区间反映参数估计的波动范围,交集判断可避免假阳性错误
-金融场景中需关注样本量足够大(n≥30)的假设前提
2.题目:
某信贷产品历史违约率为2%,现需构建逻辑回归模型预测违约,模型在测试集上AUC为0.75。若业务要求违约成本为正常还款的5倍,请计算模型的预期收益提升率(ROI)。
答案:
计算步骤:
(1)收益矩阵(假设样本量1000):
-真正例(TP):200(模型预测违约且实际违约)
-假正例(FP):30(模型预测违约但实际正常)
-真负例(TN):970(模型预测正常且实际正常)
-假负例(FN):20(模型预测正常但实际违约)
(2)无模型时收益:
正常还款收入=1000×1=1000
违约损失=1000×2%×5=100
总收益=1000-100=900
(3)有模型时收益:
-拒绝高风险用户(970正常还款):970
-接受低风险用户(180正常还款):180×1=180
-拒绝高风险用户(20违约):0
-接受低风险用户(20违约):20×5=100
总收益=970+180+100=1250
(4)ROI计算:
ROI=[(1250-900)/900]×100%≈38.89%
解析:
-AUC反映模型区分能力,但需结合业务成本(违约5倍于正常还款)量化价值
-金融风控场景中需考虑误报成本(如拒绝优质客户)
3.题目:
某分期产品用户行为数据包含:月均还款额、逾期天数、浏览商品数。请设计特征工程方案,并说明如何验证特征有效性。
答案:
特征工程方案:
(1)衍生特征:
-相对逾期率=逾期天数/总还款期数
-还款能力指数=月均还款额/月收入(需补充收入数据)
-浏览-下单转化率=下单次数/浏览商品数
(2)分箱特征:
-逾期天数分箱(0/1-3/4-7/8+天)
-还款额分位数(Q1/Q2/Q3)
验证方法:
(1)单变量分析:
-相关性分析(还款额与逾期天数呈负相关)
-偏度检验(正态分布校验)
(2)模型验证:
-使用特征重要性排序(如XGBoostSHAP值)
-特征增强实验(对比有无该特征时的AUC提升)
解析:
-金融场景需关注特征与业务的强相关性(如逾期天数与违约)
-特征有效性需通过统计检验与模型验证双重确认
4.题目:
某平台发现用户“7天未登录”行为与流失高度相关。若需设计流失预警模型,请说明如何处理时间序列数据中的季节性因素。
答案:
处理方法:
(1)分解时间序列:
-加载因子=线性趋势+季节周期(如每周/每月固定日活跃度下降)
-季节性指数=(实际值-趋势值)/周期平均值
(2)特征工程:
-季节虚拟变量(周一/周二...)
-周期差分(当前值-前周期同期值)
(3)模型适配:
-季节ARIMA(考虑周期性自回归)
-LSTM门控单元(捕获长期记忆)
解析:
-金融用户行为有明显的“月底还款-月初活跃”周期性
-季节性缺失值需插补(如前后周期均值)
5.题目:
某小额贷款产品用户欠款数据如下:
|用户ID|借款金额|逾期天数|催收响应率|
|-|||--|
|1|5000|10|0.2|
|2|3000|0
原创力文档

文档评论(0)