- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
线性相关与回归简单线性相关与回归、多重线性回归、Spearman等级相关.ppt
线性相关与回归 模型拟和的优良性指标 R:复相关系数,反映了Y与M个自变量的总体相关系数; R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系数的修正,是更客观的指标。 这些指标越接近于1,说明回归模型拟合越好。 除了上述指标,还有残差标准误s,残差标准差越小,说明回归模型拟合越好。 2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验 当P0.05,则认为此回归模型有显著性。 对自变量的统计检验 当P0.05,则认为此自变量对因变量有影响。 自变量的筛选 实际应用中,通常从专业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟合模型。 常用方法: 1.前进法(Forward):逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;SPSS中默认的选入自变量的检验水准为0.05。 2.后退法(Backward):从模型中逐步剔除变量(由多到少),对已经剔除的变量不再进入;SPSS中默认的剔除自变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和后退法,变量边进入边剔除。 3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析) 当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变量对因变量的影响就越大。 当自变量的量纲不同时,衡量自变量相对重要性的指标: 标准化偏回归系数(Standardized regression coefficient)、偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则相应自变量对因变量的影响就越大。 标准化偏回归系数:对自变量、因变量作标准化处理后计算的回归系数。 偏相关系数:因变量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(Pearson相关系数)不同;例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。 4.如何用自变量预测因变量?(预测分析) 当自变量取某个数值时,y的预测值为 Y的均数的95%置信区间 个体Y值的95%容许区间 预测分析时,(x10,x20…… xm0)应该在样本的自变量取值范围内。 1.自变量与因变量之间存在线性关系 通过绘制y与每个自变量的偏相关散点图,可以判断y与自变量之间是否存在线性关系。 2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以判断y是否服从正态分布。此条件可以放宽,只要不是严重偏离正态即可。 3.残差的等方差性 通过绘制标准化残差与预测值的散点图,若标准化残差在零水平线上下波动,无明显的规律性,则可以判断y满足等方差的假定。 (二)多重回归分析的适用条件 通过标准化残差(Standardized Residuals)、学生氏残差(Studentlized Residuals)来判断强影响点 。当指标的绝对值大于3时,可以认为样本存在强影响点。 删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:1.强影响点是由于数据记录错误造成的;2.强影响点来自不同的总体。 4.剔除强影响点(Influential cases;或称为突出点,outliers) 5.自变量之间不应存在共线性(Collinear) 当一个(或几个)自变量可以由其他自变量线性表示时,称该自变量与其他自变量间存在共线性关系。常见于:1.一个变量是由其他变量派生出来的,如:BMI由身高和体重计算得出 ;2.一个变量与其他变量存在很强的相关性。 当自变量之间存在共线性时,会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型 。 共线性诊断方法: 1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。 2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法:VIF越大,共线性越大。 3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近似于零,则自变量之间存在共线性。 4.CI(条件指数,Condition Index)法:CI越大,共线性越大。 当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回归分析(Ridge Regression Analysi
文档评论(0)