2026年大学统计学多元统计分析期末考试题库案例分析汇编与实战试卷及答案.docxVIP

  • 0
  • 0
  • 约6.38千字
  • 约 16页
  • 2026-02-02 发布于四川
  • 举报

2026年大学统计学多元统计分析期末考试题库案例分析汇编与实战试卷及答案.docx

2026年大学统计学多元统计分析期末考试题库案例分析汇编与实战试卷及答案

【案例一】电商用户复购预测

背景:某生鲜平台抽取2025年7—12月共8000条用户行为记录,变量包括:

X1=近30天登录次数,X2=近30天浏览商品数,X3=近30天加购次数,X4=近30天优惠券使用张数,X5=历史订单数,X6=历史客单价,X7=最近一次距今天数,Y=是否复购(1=复购,0=未复购)。

数据已标准化,样本按7:3划分训练集与测试集。

问题1建立Logistic回归并解释X4系数。

答案:

使用R语言glm(Y~.,family=binomial)得X4系数β?4=0.82,p0.001。

解释:在控制其他变量后,优惠券每多用1张,复购对数优势增加0.82,对应优势比e^0.82=2.27,即复购几率提升127%。

问题2采用逐步回归(AIC)筛选变量并给出最终模型。

答案:

stepAIC双向筛选后保留X1,X3,X4,X6,X7,AIC从2512降至2318。

最终模型:logit(p)=?2.10+0.35X1+0.42X3+0.79X4+0.21X6?0.57X7。

问题3计算训练集AUC并绘制ROC曲线。

答案:

library(pROC)

rocobj-roc(train$Y,pred)

AUC=0.847,95%CI=[0.832,0.862],ROC曲线左上角接近(0,1),模型区分度高。

问题4用LASSO正则化避免过拟合,给出十折交叉验证最优λ。

答案:

cv.glmnet(alpha=1,nfolds=10)得λmin=0.018,此时变量X1,X3,X4,X6非零,与逐步法一致,但X7被压缩为0,进一步简化模型。

问题5解释为何X7系数为负。

答案:

最近一次距今越久,用户活跃度越低,遗忘效应导致复购概率下降,符合业务直觉。

【案例二】城市空气质量主成分评价

背景:2025年京津冀15个监测点,变量X1=PM2.5,X2=PM10,X3=SO2,X4=NO2,X5=CO,X6=O3,X7=湿度,X8=风速,数据矩阵Z已中心标准化。

问题1计算相关系数矩阵并指出最强相关对。

答案:

corr(Z)显示X1与X2相关系数0.91,最强;X5与X8为?0.63,次强负相关。

问题2进行主成分分析,给出前三个主成分方差贡献率。

答案:

eigenvalues:4.12,1.63,0.89,贡献率依次为51.5%,20.4%,11.1%,累计83.0%。

问题3写出第一主成分表达式并解释含义。

答案:

PC1=0.42X1+0.41X2+0.38X3+0.36X4+0.35X5?0.22X8,所有污染变量正向加载,可视为“综合污染指数”,数值越高污染越重。

问题4绘制前两个主成分的载荷双标图,指出离群监测点。

答案:

biplot显示唐山某点(PC13,PC2?2)SO2异常高,张家口某点(PC1?2,PC22)O3高风速大,污染轻。

问题5用PC1得分对15城市排序并给出空气质量最差前三。

答案:

PC1得分:唐山3.21,石家庄2.87,保定2.45,最差;最好为张家口?2.91。

【案例三】手机顾客满意度因子分析

背景:2025年某品牌调研1200名用户,18个五级量表题,探索性因子分析。

问题1计算KMO与Bartlett球形检验,判断是否适合因子分析。

答案:

KMO=0.870.8,Bartlettχ2=3842,df=153,p0.001,高度适合。

问题2采用主轴迭代法提取公因子,按特征根1得几个因子?

答案:

特征根:4.32,2.91,1.83,1.02,共4个因子,累计方差68.9%。

问题3进行最大方差旋转,给出旋转后因子载荷矩阵并命名。

答案:

F1(硬件性能):Q1,Q2,Q3载荷0.75;

F2(拍照体验):Q4,Q5,Q6载荷0.78;

F3(系统流畅):Q7,Q8,Q9载荷0.72;

F4(售后服务):Q10,Q11,Q12载荷0.69。

问题4计算因子得分并检验信度。

答案:

factor.scores后,Cronbachα:F1=0.88,F2=0.85,F3=0.83,F4=0.79,均0.7,信度良好。

问题5以四个因子为自变量,整体满意度为因变量建立多元回归,给出R2。

答案:

lm(Satisfaction~F1+F2+F3+F4)得R2=0.64,ANOVA显示F1与F2显著,硬件与拍照是满意度的核心驱动。

【案例四】银行信贷违约判别分析

背景:某商业银行3000笔个人贷款,X1=年龄,X2=年收入(万元),X3=负债率,X4=信用评分,X5=房贷笔数,Y=违约(1=违约,0=正常)。

问题1

文档评论(0)

1亿VIP精品文档

相关文档