商务统计第四章0-1变量的回归模型Logistic回归Probit回归王汉生.pptVIP

  • 9
  • 0
  • 约4.82千字
  • 约 64页
  • 2019-10-20 发布于湖北
  • 举报

商务统计第四章0-1变量的回归模型Logistic回归Probit回归王汉生.ppt

Best Logit Model (AIC) Best Logit Model (BIC) Best Probit Model (AIC) Best Probit Model (BIC) Form a Prediction Rule Whenever P(ST=1|X)0.50, we predict future observation ST=1. Is 0.50 the only choice? The prediction accuracy Take logit full model as an example The overall misclassification rate = 6.3% Question: is this good? 显著性检验 构造检验统计量: 只要样本容量足够大,我们就可以计算这一检验的P值 如果是多变量情况,可以使用似然比检验 似然比检验 在原假设 下, LR 近似服从自由度为DF的卡方分布, 而 DF 是包含在 中的变量个数。 多变量逻辑回归 多变量逻辑模型 将所有影响因素带入模型,得到如下方程: 广义线性回归语句glm 先介绍一下R中的广义线性回归语句glm 语法为:glm(formula, family = gaussian, data, weights, subset, na.action, start = NULL, etastart, mustart, offset, control = glm.control(...), model = TRUE, method = glm.fit, x = FALSE, y = TRUE, contrasts = NULL, ...) 与lm不同之处就在于参数family 这个参数的作用在于定义一个族以及连接函数,使用该连接函数将因变量的期望与自变量联系起来 下页语句中的family= binomial(link=logit)表示引用了二项分布族binomial中的logit连接函数 logit模型整体显著性的检验 比较下面两个模型:空模型和全模型,对其进行方差分析: probit模型整体显著性的检验 参数估计:Logistic 参数估计:Probit 参数估计 从变量的显著性检验中可以得到如下结论: 应收账款与总资产比例(ARA)和被ST与否高度相关,且其值越高,被ST可能性越大; 债务资产比率(LEV)和被ST与否高度相关,且其值越高,被ST可能性越大; 在probit模型中,销售收入增长率(GROWTH)和被ST与否高度相关,其值越低,被ST可能性越大。 没有证据表明其他因素对ST与否有显著影响。 变量选择:logit 剔除掉不显著的变量,得到: 变量选择:probit 剔除掉不显著的变量,得到: 模型的选择 模型的选择 对比线性模型下的AIC和BIC函数: 使用step函数自动选择:logit 使用step函数自动选择:logit 使用step函数自动选择:probit 使用step函数自动选择:probit 预测与评估 未来被ST的概率为: logit模型: probit模型: 前面估计出的参数: 将某样本值代入得: 该公司被ST的概率为: 使用该模型对a2中所有数据预测 从该表中可以看出,共有699+47个样本,其中699个成功被预测成为ST=0,47个被错误的预测成为ST=0。所以预测精度达到93.7%。但是注意,所有的预测值都为0,也就是说没有预测出任何一家公司被ST,显然这不是我们需要的。 定义两种不同的分类错误P(ST=1|X)0.4 True Response 0 1 Predict- ion 0 697 46 1 2 1 False Positive Rate(FPR) = 2/(697+2)=0.29% True Positive Rate(TPR) = 1/(46+1)=2.12% 定义两种不同的分类错误 P(ST=1|X)0.3 True Response 0 1 Predict- ion 0 692 45 1 7 2 False Positive Rate = 7/(692+7)=1.00% True Positive Rate = 2/(45+2)=4.25% 定义两种不同的分类错误P(ST=1|X)0.1 True Response 0 1 Predict- ion 0 655 36 1 44 11 False Positive Rate = 44/(655+44)=6.29% True Positive Rate = 11/(36+11)=23.40% 回头看我们的数据: 训练样本: Year = 1999 (ST 时间 = 2002) 样本容

文档评论(0)

1亿VIP精品文档

相关文档