13-多重线性回归分析(7年制).pptVIP

下载本文档

15
0
约9.19千字
约 66页
2017-08-30 发布于河南
举报
版权申诉

13-多重线性回归分析(7年制).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

13-多重线性回归分析(7年制)

第十三章多重线性回归与相关李琳琳博士公卫学院统计教研室A510 由于自变量的增加计算量加大我们只有借助计算机统计软件来完成本例题的回归方程如下： 13.3 复相关系数与偏相关系数二、偏相关系数partial correlation coefficient 在多重相关分析中，有时需要分析当其它变量固定不变时，说明某两个变量间相关程度和方向的统计指标，称为偏相关系数。图13-2 13.4 自变量筛选二、自变量筛选的常用方法 l．所有可能自变量子集选择通过比较各子集符合准则的程度, 从中选择出一个或几个最优的回归, 称为“最优子集回归”。这种选择自变量的方式仅适合于自变量个数不太多的情况。（表13-6） 2.向前选择法 Forward 原理：该方法根据入选标准α1，对自变量进行筛选，每次引进一个偏回归平方和最大且具有统计学意义的自变量，由少到多，直到无可引入的自变量为止。变量一旦选入便始终保留在方程中而不被剔除。局限性：即后续变量的引入可能会使先进入方程的自变量变得不重要。不一定能保证“最优”。 3. 向后剔除法 Backward 原理：首先建立一个含所有P个自变量的全回归模型，给定剔除标准α2，然后每次剔除一个偏回归平方和最小且无统计学意义的自变量，直到不能剔除时为止。直到方程中所有自变量都有统计学意义为止。局限性：自变量高度相关时，可能得不出正确的结果。 4.逐步选择法 Stepwise selection 原理：选进入方程α1和保留在方程中的α2其本质是取第2、3方法的优点，在向前引入每一个新变量之后，都要重新检验前面已选入的自变量有无需要剔除的。反复进行引入、剔除过程，直到既没有变量被引入，也没有变量被剔除为止。小样本检验水准α定为0.10或0.15，大样本把值定为 0.05。值越小表示选取自变量的标准越严。 SPSS软件自变量筛选的方法定量描述一个反应变量与多个解释变量之间的线性依存关系；筛选危险因素；通过较易测量的因素估计不易测量的因素；通过解释变量预测反应变量。通过反应变量控制解释变量。 1. 应用条件 ⑴线性依存关系；⑵正态性；⑶独立性；⑶等方差。 2. 样本含量一般应使样本量是自变量个数的10倍以上。 3.自变量的数量化自变量一般也要求是连续变量，如果有少数的分类变量或有序变量，也可进行多重线性回归分析，但对于分类变量要注意其赋值的合理性。。 4. 筛选自变量的检验水平要考虑入选变量的实际意义。5. 多重共线性可采用主成分分析或因子分析等方法构建新的自变量后再进行多重线性回归来消除共线性。小结多重线性回归用于研究一个反应变量与多个自变量之间的线性依存关系，常用于筛选危险因素、控制混杂因素、分析交互作用、预测和控制等。其前提条件是LINE，常常用残差分析的方法考察资料是否满足这4个条件；如不满足，可尝试变量变换，或更换回归方程。其估计方程参数依据的是最小二乘法原则。偏回归系数的含义是当其他自变量的取值固定时，自变量每改变一个单位，反应变量的平均改变的单位数。原始偏回归系数用于构建回归方程，标准化偏回归系数用于比较自变量对反应变量的贡献大小。小结确定系数和调整确定系数用于说明模型中自变量解释变量的百分比，可用来评价方程拟合效果的好坏。复相关系数可用来说明某一个变量与多个变量的线性相关程度。变量筛选的目的是使方程尽量保留对回归贡献较大的重要变量而排除对回归贡献小的变量，以期用尽量简洁的模型达到尽可能高的估计精度。当自变量存在较强的相关性的时候，回归模型会出现多重共线性的现象，使得模型参数估计不稳定或不易解释。 THANK YOU! 当模型诊断发现了共线性，应如何处理？删除变量：根据偏相关系数大小，去掉其中一个对因变量影响最小的自变量，或根据方差比例（VP)的大小，去掉VP值大的自变量，重新作共线性检查，直至多重共线性不存在为止；采用主成分回归方法。实际中常要通过可测的，易测的变量对未测的，难测的变量进行估计，以达到预测的目的。利用自变量对因变量进行预测是回归分析的主要目的之一，此时，只能在X的取值范围内进行。最小二乘法（least square estimate，LSE）多重线性回归分析的基本原理就是利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数模型，并且这个模型最好地拟合了观察数据。所谓最好地拟合了观察数据，从几何意义上讲，就是从各种可能的因变量关于自变量的线性函数中找出一个最优的模型，使得这个最优模型对应的空间中几何体尽可能地靠近所有的观察值对应的几何点。例如，收集n个样本在指标变