第五章 线性回归分析.pptVIP

  • 18
  • 0
  • 约4.87千字
  • 约 44页
  • 2017-11-28 发布于湖北
  • 举报
第五章 线性回归分析

第五章 线性回归分析 第一节 一元线性回归 第一节 一元线性回归 实例: 实例:P161 实例:t 检验 第四节 预测值的置信区间 实例: 由x预测y的预测区间 实例: 由X预测Y的预测区间 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第五节 多元线性回归分析 第六节 回归诊断 第六节 回归诊断 第六节 回归诊断 第六节 回归诊断 第六节 回归诊断 第六节 回归诊断 第六节 回归诊断 第六节 回归诊断 第六节 回归诊断 第六节 回归诊断 第七节 注意事项 五、回归模型的判别准则 2. PRESS 统计量——预测残差平方和 其中 ri 为残差,hi 为杠杆率 PERSS统计量用来比较不同方法所建立的回归模型的优劣,PRESS的值越小,模型越好。 五、回归模型的判别准则 3. Cp 统计量 其中 k 为参数个数,n 为观测数 ESS(k)为含k个参数的误差平方和 ESS(T)为全回归的误差平方和 Cp统计量的值越小,回归模型越好。 一、残差(Residual)分析 残差:指实测值和预测值之间的差。 标准化残差: 学生化残差: 学生化残差使残差具有优良的可比性 残差图:以观测值(x或y)为横坐标,残差为纵坐标 方差非齐性时,可用加权最小二乘法回归,或者对因变量的数据进行适当的变换,如: 观测值不独立时(共线性): 说明自变量之间存在着一定的相关性。可能遗漏了某些重要的自变量;可用逐步回归、偏最小二乘法回归或岭回归等进行分析。 异常点的识别: 1. 杠杆率hi 刻划第i各观测值到中心的远近。 2. 一般把标准化残差的绝对值≥2的点认为是可疑点,绝对值≥3的点认为是异常点。考虑是否作为例外值加以剔除或做其它处理。 杠杆率较大的数据点可以判别为可疑点。 二、贡献分析 贡献分析:从研究观测点对回归结果的影响入手,找出对回归结果影响比较大的观测点。 若存在对回归结果影响比较大的观测点时,得到的回归模型无法保证其稳定性和应用效果。 我们希望每个观测点对回归结果都产生一定的影响,个别观测的改变不会对回归模型产生较大的影响。 对强影响点的值进行复验,或增大样本容量。 1、DFFITS统计量 此统计量衡量一个观测排除与否对预测值的影响 一般当 时,该观测值应作为强影响点加以关注。 2、Cooks D统计量 此统计量衡量一个观测排除与否对回归系数的影响 一般当 |Di|4/n 时,该观测值应作为强影响点加以关注。 三、共线性诊断 共线性:拟合多元线性回归时,自变量之间存在线性或近似线性的关系。 共线性存在时,可能会隐藏某些自变量的显著性,增加拟合模型的方差,产生很不稳定的回归模型。 进行共线性诊断的方法是基于对自变量的观测数据构成的矩阵进行分析,常用的统计量有:方差膨胀因子(容许度)和条件指数。 1、方差膨胀因子(VIF) VIF是指回归系数的估计量由于自变量的共线性使得方差增加的一个相对度量。 一般若VIF10表明存在很强的共线性。 容许度(Tol):Tol=1/VIF 是自变量xi对模型中其余自变量线性回归模型的决定系数R2 若矩阵X’X特征值为 , 则d1/dj,j=1,2,…,k 就称为条件指数 2、条件指数 判别存在强共线性时,dj 对应的特征向量的变量间存在近似线性关系,根据方差贡献大于0.5找出有共线性的变量集。 条件指数在10~30间为弱相关;在30~100间为中等相关;大于100表明存在强相关。 1、线性回归分析要具有实践意义。 2、线性回归关系不显著,不意味着变量间没有关系,只说明变量间没有显著线性关系,而有可能存在曲线关系。 3、线性回归关系显著,不一定变量间关系就是线性的,不排斥有更好的曲线关系。 4、回归关系显著,回归区间不能任意外推。 5、样本容量要尽可能大,才能保证回归的准确性。 * * 一、一元线性回归 二、一元线性回归方程 三、回归关系的显著性检验 四、置信区间 五、多元线性回归 六、回归诊断 生产实践中,常常能找到一个变量与另外一个变量之间的关系:小麦的施肥量与产量、水稻的株高和穗长、冬天的温度与来年病虫害的发生程度等等。 回归分析就是找出合适的回归方程,从而用一个变量来预测另一个变量。 一元线性回归:最简单的回归关系

文档评论(0)

1亿VIP精品文档

相关文档