第二章线性回归分析.doc

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE PAGE 57 第二章 回归分析 教学目标:回归分析是基于观测数据建立变量间的依赖关系,并可用于预报、控制等问题。不仅要熟练掌握线性回归模型和Logistic回归模型的建模理论与方法,而且要能够利用回归分析的SAS过程解决有关实际应用问题。为学生将来从事科研和应用打下坚实的基础。 重难点:各种回归模型的建模理论与方法,参数估计、模型与参数的检验;利用回归分析的SAS过程解决有关实际应用问题。 说明:本章约24学时。讲解时适当介绍前沿课题,并与自己的科研相结合,注重理论联系实际。 第一节 线性回归模型及参数估计 (约2课时) 一.线性回归模型及其矩阵表示 假设是一个可观测的随机变量,非随机因素和随机误差对有影响,并且它们之间具有线性关系 (2.2) 其中是均值为零、方差为的误差项,它表示除了之外其它因素对的影响以及试验或测量误差,是未知参数.本章假定。该模型称为线性回归模型,且称为因变量,为自变量。 一个最一般的线性回归模型为 (2.3) 只是只要令,就可将模型(2.3)化为线性回归模型。 假定我们有了因变量和自变量的组独立的观测值,它们满足(1)式,即 (2.5) 其中误差项相互独立,且服从分布。 若用矩阵形式,(2.5)变形为 等价地 (2.6) 其中是的观测向量.为的已知满秩设计矩阵,为未知参数向量,为不可观测的随机误差向量.式(2.6)称为线性回归模型的矩阵形式。 二.参数估计及其性质 1.回归参数的最小二乘估计 获得参数向量的估计的一个最重要方法是最小二乘法,该法是找的估计,使得偏差向量的长度之平方和达到最小,即 其中。分别对的每一分量求偏导数,并令其为零,可以得到方程组 它称为正规方程.这个线性方程组有唯一解的充要条件是的秩为.等价地,的秩为.以后在线形回归模型的讨论中,我们总假定这个条件满足.于是我们得到的最小二乘估计为 (4) 根据微积分的极值理论,只是函数的一个驻点.可以证明确实使达到最小. 记并将其代入(1),去掉误差项,得到回归方程 2. 误差方差的估计 在线性回归模型(1)中还有一个重要参数,它是模型误差项的方差,因而有时简称为误差方差. 反映了模型误差以及观察误差的大小,在回归分析中起着重要作用.现在我们讨论的估计问题. 误差向量是一个不可观测的随机向量,用最小二乘估计代替其中的,得到 (2.12) 称为残差向量,其中为对称幂等矩阵。称数 (2.13) 为残差平方和,它的大小反映了实际数据与理论模型(2.2)的偏离程度或者说拟合程度.可以证明为的无偏估计。 例2.1 一元线性回归模型.假设影响因变量的因素只有一个,记为.现在我们对和获得了次观测,于是我们有 求的最小二乘估计及的估计。 解 正则方程为 当不全相等时..这里.于是正则方程左端的系数行列式.经过初等计算可以解得和的最小二乘估计分别为 , 其中。的无偏估计为 3.估计量的基本性质 性质1 对于线性回归模型(2.6),最小二乘估计具有下列性质: (1) (2) (3)是的无偏估计. 证明 (1)因为,于是 (2)因为,所以 (3) 因为, 所以 利用,可得,于是结论成立。 性质2 对于线性回归模型(2.6),若进一步假设误差向量,则 ; ; 与相互独立。 证明 在定理的假设下,.注意到是的线形变换,我们可以证明。 根据定义, 这里.注意到,于是 又因为,,即是幂等阵,根据定理,我们只需证明的秩为.因为是幂等阵,它的秩等于它的迹,于是 这就完成了的证明。 因为,而,注意到,而与相互独立.因而与相互独立 性质3. 对于线性回归模型(2.6),若进一步假设误差向量,则残差向量具有性质 (1) ; (2)。 证明 (1)由于,故且 (2)显然服从多元正态分布,再由(1)即得(2)。 第二节 统计推断与预测 一.回归方程的显著性检验 和之间是否存在显著的线性关系,还需要对回归方程进行统计检验。 1. 离差平方和的分解与复相关系数 1)离差平方和的分解。数据总的离差平方和,反映了数据波动性的大小。 残差平方和,反映了除去与之间的线性关系以外的因素引起的数据的波动。SSE越大,观测值和线性拟合值间的偏差也越大。 回归平方和,反映了线性拟合值与它们的平均值的总偏差,即由的变化所引起的的波动。可以证明

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档