Logisticstatisticmodel.docVIP

下载本文档

60
0
约8.07千字
约 15页
2016-03-14 发布于安徽
举报
版权申诉

Logisticstatisticmodel.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Logisticstatisticmodel.doc

Logistic Statistic Model 一、基本概念什么是P-Value？这是统计学中最重要的基本概念，所谓P-Value是指拒绝H0所犯的第一类错误，通常阈值是0.05.也就是说，不管是什么统计量(F统计量，T统计量，卡方统计量等等)，在H0假设成立下都会有一个唯一对应的P-Value，如果算出来的P-Value小于阈值，则说拒绝H0，反之，不能拒绝H0,但是千万不要说接受H0！什么是点估计和区间估计？点估计：利用样本数据对未知参数进行估计得到的是一个具体的数据区间估计：通过样本数据估计未知参数在置信度下的最可能的存在区间得到的结果是一个区间在一定置信水平时，以测量结果为中心，包括总体均值在内的可信范围MLS (Maximum Likelihood Estimation) ？ LSE是最小化误差的平方和并把正面的次数记下来，正面记为H，反面记为T）。并把抛出一个正面的概率记为p，抛出一个反面的概率记为1 ? p（因此，这里的p即相当于上边的θ）。假设我们抛出了41个正面，39 个反面，即41次H，39次T。由于它背后隐含的是二项分布，使用最大似然估计，通过这些试验数据（即采样数据），我们可以计算出哪个硬币的可能性最大。这个可能性函数取以下三个值中的一个：可以计算，当p=1/2时，可能性函数取得最大值。这就是P的最大似然估计X1,X2,…,Xn作用下，某事件发生的概率为P, 则该事件不发生的概率为1-P, P/1-P为发生概率和不发生概率之比，记做“优势”(Odds),若对Odds取自然对数，得到：称为P的logit变换，则logistic回归模型为：则概率计算公式为： Logistic回归模型与一般线性回归模型的区别：线性回归模型的结果变量（outcome variable）或因变量（dependent variable）或反应变量（response variable）与自变量之间的关系是线性的，而Logistic回归中因变量与自变量之间关系是非线性的。在线性回归中通常假设，对应自变量X的某个值，因变量Y的观测值具有正态分布，但是在logistic回归中，因变量Y却是二项发布（0和1）或多项分布。在logistic回归中，不存在线性回归中有的残差项。三、Logistic回归模型估计方法论和假设条件 Logistic回归模型估计采用是MLS方法论来估计参数。其假设条件与 LSE回归比较类似。数据必须来自随机样本。因变量Y被假定为K个自变量的函数。自变量是确定性变量，不是随机变量。正如LSE回归，logistic回归也对多元共线性(muliti-collinearity)敏感。自变量之间存在多元共线性也会导致标准误的膨胀。但是还有一些与LSE不同的假设：因变量Y是分类变量，研究的兴趣是在X发生时事件发生的条件概率。自变量和因变量之间是非线性关系，可以通过Logit函数转换成线性关系。在LSE回归中对残差要求独立同分布(IID)，但在logistic中却不需要，因为logistic没有残差项。四、logistic回归模型评价在实际应用中，人们往往只对回归模型自身的“好坏”以及回归系数的显著性关注，评价回归模型“好坏”的主要指标有： 1. 拟合优度（goodness of fit）拟合优度度量的是预测值和观测值之间的一致性。但是在评价模型时，实际上测量的是预测值和观测值之间的差别，也就是说，我们实际上检验的是模型预测的“劣度”，而不是“优度”，即拟合不佳检验（lack of fit test）。常用的两个指标： Hosmer-Lemeshow指标和信息测量指标（Information Measures）。 HL指标是一种类似于皮尔逊卡方统计量的指标，其对应的H0是预测值概率和观测值之间无显著差异，所以，如果HL指标显示较大的P-Value，说明统计结果不显著，因此，我们不能拒绝关于模型拟合数据很好的假设，换句话说，模型很好的拟合了数据。在SAS中调用LACKFIT选项命令。 IM指标中比较著名的是AIC, 在其它条件不变的情况下，较小的AIC值表示拟合模型较好。在SAS中还提供了另外一种IM指标SC，SC指标是对AIC指标的一种修正，与AIC同向作用。 2. 模型卡方统计（Model Chi-Square Statistic）模型卡方统计检测的是模型中所包含的自变量对因变量有显著的解释能力，也就是说所设模型要比零假设模型（即只包含常数项的模型）要好，在多元线性回归和ANOVA中，常用F检验达到目的。在Logistic中用似然比检验（likelihoodLikelihood ratio对应的值。需要注意的是，模型卡方值和拟合优度是两个完全不同的概念：前者度量的是自变