线性相关与回归简单线性相关与回归、多重线性回归、Spearman等级相关.pptVIP

下载本文档

1
0
约4.84千字
约 62页
2017-01-16 发布于广东
举报
版权申诉

线性相关与回归简单线性相关与回归、多重线性回归、Spearman等级相关.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

线性相关与回归简单线性相关与回归、多重线性回归、Spearman等级相关.ppt

线性相关与回归模型拟和的优良性指标 R：复相关系数，反映了Y与M个自变量的总体相关系数； R2：决定系数（R Square） R2c：调整决定系数（Adjusted R square ），是对决定系数的修正，是更客观的指标。这些指标越接近于1，说明回归模型拟合越好。除了上述指标，还有残差标准误s，残差标准差越小，说明回归模型拟合越好。 2.哪些自变量对因变量有影响？（影响因素分析）对回归模型的统计检验当P0.05,则认为此回归模型有显著性。对自变量的统计检验当P0.05,则认为此自变量对因变量有影响。自变量的筛选实际应用中，通常从专业知识出发，建立一个简约（parsimonious）的回归模型，即用尽可能少的自变量拟合模型。常用方法： 1.前进法（Forward）：逐步增加变量到模型中（由少到多），对已经进入的变量不再剔除；SPSS中默认的选入自变量的检验水准为0.05。 2.后退法（Backward）：从模型中逐步剔除变量（由多到少），对已经剔除的变量不再进入；SPSS中默认的剔除自变量的检验水准为0.10。 3.逐步法（Stepwise）：结合了前进法和后退法，变量边进入边剔除。 3.哪一个自变量对因变量的影响更重要？（自变量的相对重要性分析）当自变量的量纲相同时，衡量自变量相对重要性的指标：偏回归系数；若偏回归系数的绝对值越大，则相应自变量对因变量的影响就越大。当自变量的量纲不同时，衡量自变量相对重要性的指标：标准化偏回归系数（Standardized regression coefficient）、偏相关系数（Partial Correlation）和部分相关系数（Part Correlation）。上述指标的绝对值越大，则相应自变量对因变量的影响就越大。标准化偏回归系数：对自变量、因变量作标准化处理后计算的回归系数。偏相关系数：因变量与自变量均扣除其他自变量影响之后，二者之间的相关系数。与简单相关系数（Pearson相关系数）不同；例如：考察因变量Y与自变量X1 、X2的多元回归分析，Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。部分相关系数：自变量扣除其他自变量影响之后，因变量与自变量之间的相关系数。与偏相关系数不同，部分相关系数中因变量未扣除其他自变量的影响。 4.如何用自变量预测因变量？（预测分析）当自变量取某个数值时，y的预测值为 Y的均数的95％置信区间个体Y值的95％容许区间预测分析时，（x10，x20…… xm0）应该在样本的自变量取值范围内。 1.自变量与因变量之间存在线性关系通过绘制y与每个自变量的偏相关散点图，可以判断y与自变量之间是否存在线性关系。 2.残差的正态性通过绘制标准化残差的直方图以及正态概率图（P-P图），可以判断y是否服从正态分布。此条件可以放宽，只要不是严重偏离正态即可。 3.残差的等方差性通过绘制标准化残差与预测值的散点图，若标准化残差在零水平线上下波动，无明显的规律性，则可以判断y满足等方差的假定。（二）多重回归分析的适用条件通过标准化残差（Standardized Residuals）、学生氏残差（Studentlized Residuals）来判断强影响点。当指标的绝对值大于3时，可以认为样本存在强影响点。删除强影响点应该慎重，需要结合专业知识。以下两种情况可以考虑删除强影响点：1.强影响点是由于数据记录错误造成的；2.强影响点来自不同的总体。 4.剔除强影响点（Influential cases；或称为突出点，outliers） 5.自变量之间不应存在共线性（Collinear）当一个（或几个）自变量可以由其他自变量线性表示时，称该自变量与其他自变量间存在共线性关系。常见于：1.一个变量是由其他变量派生出来的，如：BMI由身高和体重计算得出；2.一个变量与其他变量存在很强的相关性。当自变量之间存在共线性时，会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型。共线性诊断方法： 1.TOL（容许度，Tolerance）法：TOL越接近零，共线性越大。 2.VIF（方差膨胀因子，Variance Inflation Factor，VIF ）法：VIF越大，共线性越大。 3.特征根（Eigenvalue）法：如果自变量相关矩阵的特征根近似于零，则自变量之间存在共线性。 4.CI（条件指数，Condition Index）法：CI越大，共线性越大。当自变量之间存在共线性时，可以剔除某个自变量或者采用岭回归分析（Ridge Regression Analysi