- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 2.检验回归方程 TSS=ESS+RSS y值的变化由两个原因造成:一是X的变化引起Y的变化,另一个是不可控制的随机因素对Y的影响。 ESS 反映了自变量变化所引起的对Y的波动,它的大小反映了自变量X的重要程度。 RSS的大小反映了试验误差及其他随机因素对试验结果的影响。为了给出合适的统计量,可以证明: * 这表明从平均意义上看RSS只反映了随机误差所引起的差异,这是残差平方和名称的由来。 它表明:当β2=0时,从平均意义上看ESS仅反映了随机误差引起的差异;当β2≠0时,反映了E S S随x变化所引起的差异 * 当假设为β2=0时, 我们还可以证明: 且ESS与RSS独立。 * 当β2≠0时, E (E S S ) ,当X与Y有线性关系时,可以用F统计量来检验假设。将统计量构造成被解释方差与未被解释方差之比。有F统计量: * 如果X与Y之间有很强的统计关系,就会导致被解释方差和未被解释方差的比值很大。F服从分子自由度为1,分母自由度为n-2的F分布。如果回归方程的F值大于显著性水平对应的临界值,我们将以显著性水平拒绝原假设,即认为因变量与自变量之间存在相关关系。否则不能拒绝原假设。(例子中的残差分析表) 临界值: 一元线性回归方差分析表 F值 P值 ? P(FF临界)=P值 回归 残差 总和 1 n-2 n-1 ESS RSS TSS 方差来源 自由度 平方和 均方 * 相关系数的显著性检验 一元线性回归方程中讨论的是X与Y之间的线性关系,因此,可以用变量之间的相关系数来检验回归方程的显著性。 X与Y之间的相关系数为: * 回归系数 与相关系数r的关系: 结论:一元线性回归的回归系数的符号与相关系数r的符号相同。 * 其接近1 的程度与数据组数n有关。当n较小时,相关系数的绝对值容易接近于1;当 n较大时,相关系数的绝对值容易偏小。特别是当 n=2时,相关系数的绝对值总为1。因此,在样本容量较小时,我们还不能仅凭相关系数较大就说变量之间具有密切的线性关系。这时需要对相关系数进行假设检验。 相关系数检验的统计量为 相关系数的缺点 当 时,认为Y与X的简单回归系数显著不为零 。 * 可决系数与相关系数的关系 * 相关关系与因果关系的区别 相关不隐含有因果关系的假设,而回归则包含因果关系的假设。 举例说明相关但不存在因果关系的情形:一项关于19世纪非洲医学研究的时间序列数据,某地区的医生数与该地区的疾病流行程度之间高度相关的关系, 但由此推断医生的出现造成了疾病的流行就是错误的。 * 残差分析 在利用回归方程作分析与预测之前,应该用残差图诊断回归效果与样本数据的质量,检验模型是否满足基本假设,以便对模型作进一步的修改。 残差是实际观测值与通过回归方程给出的回归值之差,残差是误差项的估计值。以自变量为横轴(或以因变量回归值为横轴),以残差为纵轴,将相应的残差点画在直角坐标系上,就可得到残差图,残差图可对数据质量进行分析。 * 一般而言,如果一个回归模型满足所给出的基本假设,所有残差是在0附近随机变化,且在变化幅度不大的一条带子内,就可以说明回归模型满足基本假设。如果不是,例如存在增大的趋势、缩小的趋势等,违背假设的情形时,需要进行相应的处理。 残差的性质 性质1 * 性质2 = hii称为杠杆值,当 X靠近其均值时,杠杆值接近0,相应的残差方差就大;当X远离其均值时,杠杆值接近1,相应的残差方差就小。 性质3 残差满足约束条件 * 改进的残差 在残差分析中,一般认为超过 或 (正负2倍或3倍的标准差)的残差为异常值 。考虑普通残差的方差不等,人们引入标准化残差和学生化残差的概念,以改进普通残差的性质。 * 标准化残差: (ZRE)Standardized= 学生化残差: (SRE)Studentized= ZRE的绝对值大于3的观测值即判定为异常值,但没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题。 * 预测和控制 建立回归模型的目的是为了应用,而预测和控制是回归模型最重要的应用。 1.均值预测 均值预测是指给定X0,预测Y的条件均值。 2.个值预测 个值预测是指给定X0,预测单个的Y0值。 * 均值预测 服从正态分布,其均值为 , 方差为: * * 得到 记 构造统计量: 均值95%的置信区间为: * 个值预测 于是有 * 构造统计量: 可得 求得y0的置信概率为1-α的置信区间为 当样本容量较大,y0的置信度为95%的区间近似为 * 报告回归分析结果 估计出的回归模型
文档评论(0)