第12章回归分析.docVIP

  • 7
  • 0
  • 约1.22万字
  • 约 13页
  • 2017-02-08 发布于重庆
  • 举报
第12章回归分析

第十二章 回归分析 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合问题作的统计分析。 具体地说,回归分析在一组数据的基础上研究这样几个问题: (i)建立因变量与自变量之间的回归模型(经验公式); (ii)对回归模型的可信度进行检验; (iii)判断每个自变量对的影响是否显著; (iv)诊断回归模型是否适合这组数据; (v)利用回归模型对进行预报或控制。 §1 多元线性回归 回归分析中最简单的形式是,均为标量,为回归系数,称一元线性回归。它的一个自然推广是为多元变量,形如 (1) ,或者更一般地 (2) 其中,是已知函数。这里对回归系数是线性的,称为多元线性回归。不难看出,对自变量作变量代换,就可将(2)化为(1)的形式,所以下面以(1)为多元线性回归的标准型。 1.1 模型 在回归分析中自变量是影响因变量的主要因素,是人们能控制或能观察的,而还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作 (3) 其中未知。现得到个独立观测数据,,由(3)得 (4) 记 , (5) , (4)表为 (6) 1.2 参数估计 用最小二乘法估计模型(3)中的参数。 由(4)式这组数据的误差平方和为 (7) 求使最小,得到的最小二乘估计,记作,可以推出 (8) 将代回原模型得到的估计值 (9) 而这组数据的拟合值为,拟合误差称为残差,可作为随机误差的估计,而 (10) 为残差平方和(或剩余平方和),即。 1.3 统计分析 不加证明地给出以下结果: (i)是的线性无偏最小方差估计。指的是是的线性函数;的期望等于;在的线性无偏估计中,的方差最小。 (ii)服从正态分布 (11) (iii)对残差平方和,,且 (12) 由此得到的无偏估计 (13) 是剩余方差(残差的方差),称为剩余标准差。 (iv)对总平方和进行分解,有 , (14) 其中是由(10)定义的残差平方和,反映随机误差对的影响,称为回归平方和,反映自变量对的影响。 1.4 回归模型的假设检验 因变量与自变量之间是否存在如模型(1)所示的线性关系是需要检验的,显然,如果所有的 都很小,与的线性关系就不明显,所以可令原假设为 当成立时由分解式(14)定义的满足 (15) 在显著性水平下有分位数,若,接受;否则,拒绝。 注意 拒绝只说明与的线性关系不明显,可能存在非线性关系,如平方关系。 还有一些衡量与相关程度的指标,如用回归平方和在总平方和中的比值定义 (16) 称为相关系数,越大,与相关关系越密切,通常,大于0.8(或0.9)才认为相关关系成立。 1.5

文档评论(0)

1亿VIP精品文档

相关文档