SPSS统计软件简介.ppt

下载文档

1
0
约1.6万字
约 96页
2017-06-22 发布于北京
举报
版权申诉
保障服务

SPSS统计软件简介.ppt

1、本文档共96页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

此处已经开始了拟合，Block 0拟合的是只有常数的无效模型，上表为分类预测表，可见在17例观察值为0的记录中，共有17例被预测为0，9例1也都被预测为0，总预测准确率为65.4%，这是不纳入任何解释变量时的预测准确率，相当于比较基线。上表为Block 0时的变量系数，可见常数的系数值为-0.636。上表为在Block 0处尚未纳入分析方程的侯选变量，所作的检验表示如果分别将他们纳入方程，则方程的改变是否会有显著意义（根据所用统计量的不同，可能是拟合优度，Deviance值等）。可见如果将X2系列的哑变量纳入方程，则方程的改变是有显著意义的，X4和X5也是如此，由于Stepwise方法是一个一个的进入变量，下一步将会先纳入P值最小的变量X2，然后再重新计算该表，再做选择。此处开始了Block 1的拟合，根据我们的设定，采用的方法为Forward（我们只设定了一个Block，所以后面不会再有Block 2了）。上表为全局检验，对每一步都作了Step、Block和Model的检验，可见6个检验都是有意义的。此处为模型概况汇总，可见从STEP1到STEP2，DEVINCE从18降到11，两种决定系数也都有上升。此处为每一步的预测情况汇总，可见准确率由Block 0的65%上升到了84%，最后达到96%，效果不错，最终只出现了一例错判。上表为方程中变量检验情况列表，分别给出了Step 1和Step 2的拟合情况。注意X4的P值略大于0.05，但仍然是可以接受的，因为这里用到的是排除标准（默认为0.1），该变量可以留在方程中。以Step 2中的X2为例，可见其系数为2.413，OR值为11。上表为假设将这些变量单独移出方程，则方程的改变有无统计学意义，可见都是有统计学意义的，因此他们应当保留在方程中。最后这个表格说明的是在每一步中，尚未进入方程的变量如果再进入现有方程，则方程的改变有无统计学意义。可见在Step 1时，X4还应该引入，而在Step 2时，其它变量是否引入都无关了。模型的进一步优化与简单诊断模型的进一步优化前面我们将X1~X5直接引入了方程，实际上，其中X2、X4、X5这三个自变量为多分类变量，我们并无证据认为它们之间个各等级的OR值是成倍上升的，严格来说，这里应当采用哑变量来分析，即需要用Categorical钮将他们定义为分类变量。但本次分析不能这样做，原因是这里总例数只有26例，如果引入哑变量模型会使得每个等级的记录数非常少，从而分析结果将极为奇怪，无法正常解释，但为了说明哑变量模型的用法，下面我将演示它是如何做的，毕竟不是每个例子都只有26例。上表为自变量中多分类变量的哑变量取值情况代码表。左侧为原变量名及取值，右侧为相应的哑变量名及编码情况：以X5为例，表中可见X5=4时，即取值最高的情况被作为了基线水平，这是多分类变量生成哑变量的默认情况。而X5(1)代表的是X5=1的情况（X5为1时取1，否则取0），X5(2)代表的是X5=2的情况，依此类推。同时注意到许多等级值有几个记录，显然后面的分析结果不会太好。上表出现了非常有趣的现象：所有的检验P值均远远大于0.05，但是所有的变量均没有被移出方程，这是怎么回事？再看看下面的这个表格吧。这个表格为方程的似然值改变情况的检验，可见在最后Step 2生成的方程中，无论移出X2还是X4都会引起方程的显著性改变。也就是说，似然比检验的结果和上面的Walds检验结果冲突，以谁为准？此处应以似然比检验为准，因为它是全局性的检验，且Walds检验本身就不太准，这一点大家记住就行了，实在要弄明白请去查阅相关文献。上表为Block 1的迭代记录，可见无论是似然值，还是三个系数值，均是从迭代开始就向着一个方向发展，最终达到收敛，这说明整个迭代过程是健康的，问题不大；如果中途出现波折，尤其是当引入新变量后变化方向改变了，则提示要好好研究。上表为方程中变量的相关矩阵，可见X2和常数相关性较强，当引入X4后仍然如此，提示要关注这一现象，以防因自变量间的共线性导致方程系数不稳（此时迭代记录多半也会有波动）。当然，由于本例只有26条记录，这一问题是没有办法深入研究的。上图是Step 1结束时，即只引入X2时的预测图，0和1代表实际取值，当预测的概率值大于0.5时，则预测结果为1，反之为0，由上图可见，该模型对0的预测是比较好的，多数的概率都在0附近，但对1的预测不准，即使正确的，计算出的概率也在0.8左右，并且有好几个都判错了。上图为Step 2结束后模型的预测状况，可见此时预测结果有了较大的改善，概率精度提高了许多，只有一例0被错判为了1，并且从分布上看，这一例可能是极端情况，再引入其它变量也不见的能将预测效果改变多少。