- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
线性回归方程中的相关系数 r
r=∑(Xi-X 的平均数)(Yi-Y 平均数)/根号下[∑(Xi-X 平均数)^2*∑
(Yi-Y 平均数)^2]
R2 就是相关系数的平方,
R 在一元线性方程就直接是因变量自变量的相关系数,多元则是复相
关系数
判定系数 R^2
也叫拟合优度、可决系数。表达式是:
R^2=ESS/TSS=1-RSS/TSS
该统计量越接近于 1,模型的拟合优度越高。
问题:在应用过程中发现,如果在模型中增加一个解释变量, R2 往往
增大
这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。
——但是,现实情况往往是,由增加解释变量个数引起的 R2 的增大
与拟合好坏无关,R2 需调整。
这就有了调整的拟合优度:
R1^2=1-(RSS/(n-k-1))/(TSS/(n-1))
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以
调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,
以剔除变量个数对拟合优度的影响:
其中:n-k-1 为残差平方和的自由度,n-1 为总体平方和的自由度。
总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加
对判 结果的影响。
R = R 接近于 1 表明 Y 与 X1 , X2 ,…,Xk 之 的线性关系程度
密切;
R 接近于 0 表明 Y 与 X1 , X2 ,…,Xk 之 的线性关系程度不密切
相关系数就是线性相关度的大小,1为(100%)绝对正相关,0 为0%,
-1 为(100%)绝对负相关
相关系数绝对值越靠近 1,线性相关性质越好,根据数据描点画
出来的函数- 自变量图线越趋近于一条平直线,拟合的直线与描点所
得图线也更相近。
如果其绝对值越靠近 0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相
差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据
点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合
是会出现很大误差的或者说是根本错误的)。
分为一元线性回归和多元线性回归
线性回归方程中,回归系数的含义
一元:
Y^=bX+a b 表示 X 每变动(增加或减少)1 个单位,Y 平均变动(增加或减少)b 各单位
多元:
Y^=b1X1+b2X2+b3X3+a 在其他变量不变的情况下,某变量变动 1 单位,引起 y 平均变动
量
以b2 为例:b2 表示在 X1 、X3 (在其他变量不变的情况下)不变得情况下,X2 每变动 1
单位,y 平均变动 b2 单位
就一个 reg 来说 y=a+bx+e
a+bx 的误差称为explained sum of square
e 的误差是不能解释的是 residual sum of square
总误差就是 TSS
所以 TSS=RSS+ESS
判定系数也叫拟合优度、可决系数。表达式是
该统计量越接近于 1,模型的拟合优度越高。
问题:在应用过程中发现,如果在模型中增加一个解释变量, R2 往往增大
这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。
——但是,现实情况往往是,由增加解释变量个数引起的 R2 的增大与拟合好坏无关,R2
需调整。
这就有了调整的拟合优度
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将
残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其
中:n-k-1 为残差平方和的自由度,n-1 为总体平方和的自由度。
总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。
顺便补充一下:
一般做回归的时候要求拟合优度(实际值与拟合值相关系数的平方)越高越好,可以通过增
加解释变量来实现,可是解释变量多了后很多解释变量的系数 T 检验不显著了,而且增加很
多变量后模型的自由度就减少了,这些情况狂的存在往往使得模型预测不精确;修正拟合优
度就是将残差平方和跟总离差平方和分别除以各自的自由度,这样就剔除了变量个数对其影
响了。
首先有一个恒等式:TSS = ESS + RSS
即总偏差平方和 = 回归平方和 + 残差平方和
通常情况,我们都是讨论解释变量对总效应的贡献,使用一个叫“拟合优度” (或者叫“判定系
数” )的指标
其定义为:
回归平方和 / 总偏差平方
文档评论(0)