线性回归方程中的相关系数r (2).docxVIP

下载本文档

484
0
约8.63千字
约 14页
2017-06-15 发布于上海
举报
版权申诉

线性回归方程中的相关系数r (2).docx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

线性回归方程中的相关系数rr=∑(Xi-X的平均数)(Yi-Y平均数)/根号下[∑(Xi-X平均数)^2*∑(Yi-Y平均数)^2]R2就是相关系数的平方，R在一元线性方程就直接是因变量自变量的相关系数，多元则是复相关系数判定系数R^2也叫拟合优度、可决系数。表达式是:R^2=ESS/TSS=1-RSS/TSS该统计量越接近于1，模型的拟合优度越高。问题：在应用过程中发现，如果在模型中增加一个解释变量， R2往往增大这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。——但是，现实情况往往是，由增加解释变量个数引起的R2的增大与拟合好坏无关，R2需调整。这就有了调整的拟合优度:R1^2=1-(RSS/(n-k-1))/(TSS/(n-1))在样本容量一定的情况下，增加解释变量必定使得自由度减少，所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响:其中：n-k-1为残差平方和的自由度，n-1为总体平方和的自由度。总是来说，调整的判定系数比起判定系数，除去了因为变量个数增加对判定结果的影响。R = R接近于1表明Y与X1， X2 ，…，Xk之间的线性关系程度密切；R接近于0表明Y与X1， X2 ，…，Xk之间的线性关系程度不密切相关系数就是线性相关度的大小，1为（100%）绝对正相关，0为0%，-1为（100%）绝对负相关相关系数绝对值越靠近1，线性相关性质越好，根据数据描点画出来的函数-自变量图线越趋近于一条平直线，拟合的直线与描点所得图线也更相近。如果其绝对值越靠近0，那么就说明线性相关性越差，根据数据点描出的图线和拟合曲线相差越远（当相关系数太小时，本来拟合就已经没有意义，如果强行拟合一条直线，再把数据点在同一坐标纸上画出来，可以发现大部分的点偏离这条直线很远，所以用这个直线来拟合是会出现很大误差的或者说是根本错误的）。分为一元线性回归和多元线性回归线性回归方程中,回归系数的含义一元：Y^=bX+a b表示X每变动（增加或减少）1个单位,Y平均变动（增加或减少）b各单位多元：Y^=b1X1+b2X2+b3X3+a 在其他变量不变的情况下，某变量变动1单位，引起y平均变动量以b2为例：b2表示在X1、X3（在其他变量不变的情况下）不变得情况下，X2每变动1单位，y平均变动b2单位就一个reg来说y=a+bx+ea+bx的误差称为explained sum of squaree的误差是不能解释的是residual sum of square总误差就是TSS所以TSS=RSS+ESS判定系数也叫拟合优度、可决系数。表达式是该统计量越接近于1，模型的拟合优度越高。问题：在应用过程中发现，如果在模型中增加一个解释变量，?R2往往增大? ?这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。——但是，现实情况往往是，由增加解释变量个数引起的R2的增大与拟合好坏无关，R2需调整。这就有了调整的拟合优度? ? ? 在样本容量一定的情况下，增加解释变量必定使得自由度减少，所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响:其中：n-k-1为残差平方和的自由度，n-1为总体平方和的自由度。总是来说，调整的判定系数比起判定系数，除去了因为变量个数增加对判定结果的影响。顺便补充一下：一般做回归的时候要求拟合优度（实际值与拟合值相关系数的平方）越高越好，可以通过增加解释变量来实现，可是解释变量多了后很多解释变量的系数T检验不显著了，而且增加很多变量后模型的自由度就减少了，这些情况狂的存在往往使得模型预测不精确；修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度，这样就剔除了变量个数对其影响了。首先有一个恒等式：TSS = ESS + RSS即总偏差平方和 = 回归平方和 + 残差平方和通常情况，我们都是讨论解释变量对总效应的贡献，使用一个叫“拟合优度”（或者叫“判定系数”）的指标其定义为：回归平方和 / 总偏差平方和 =ESS/TSS = (TSS-RSS)/TSS =(923-325)/923如果说随机误差对总效应的贡献，那可以直接 RSS/TSS因为 1 - (TSS-RSS)/TSS 就可以化为 RSS / TSSSPSS中pearson（皮尔逊相关系数）看r值还是P值，确定相关性两个值都要看，r值表示在样本中变量间的相关系数，表示相关性的大小；p值是检验值，是检验两变量在样本来自的总体中是否存在和样本一样的相关性。SPSS回归系数 SIG在SPSS软件统计结果中，不管是回归分析还是其它分析，都会看到“SIG”，SIG=significance，意为“显著性”，后面的值就是统计出的P值，如果P值0.01P0.05,则