多元的线性回归.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实用标准文案 精彩文档 多元线性回归模型 一、多元线性回归模型的一般形式 设随机变量y与一般变量的线性回归模型为: 写成矩阵形式为: 其中: 二、多元线性回归模型的基本假定 1、解释变量是确定性变量,不是随机变量,且要求。这里的表明设计矩阵X中自变量列之间不相关,样本容量的个数应大于解释变量的个数,X是一满秩矩阵。 2、随机误差项具有0均值和等方差,即: ,即假设观测值没有系统误差,随机误差的平均值为0,随机误差的协方差为0表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立),不存在序列相关,并且具有相同的精度。 3、正态分布的假定条件为:,矩阵表示:,由该假定和多元正态分布的性质可知,随机变量y服从n维正态分布,回归模型的期望向量为:; 因此有 三、多元线性回归方程的解释 对于一般情况含有个自变量的回归方程的解释,每个回归系数表示在回归方程中其他自变量保持不变的情况下,自变量每增加一个单位时因变量y的平均增加程度。因此通常把多元线性回归的回归系数称为偏回归系数。下面看个例子,考虑国内生产总值GDP和三次产业增加值的关系,这个问题中GDP=是确定性的函数关系,可以看作误差项为0的特殊回归关系。3个回归系数都是1,对解释为第二产业增加值每增加1亿元GDP也增加1亿元。假设做GDP对的一元线性回归,得到回归方程为,对这个方程回归系数的解释是第二产业增加值每增加1亿元GDP增加1.8554亿元。两个回归方程对同样的经济现象给出了不同的解释,问题出在什么地方呢?多元回归系数表示在回归方程中其他自变量保持不变的情况下,相应自变量每增加一个单位时因变量的平均增加速度。因此在用多元回归方程GDP=解释=1时,一定要强调是在和保持不变的情况下,每增加1亿元GDP也增加1亿元。在用一元回归方程解释回归系数时,要强调的是在方程之外的有关变量也相应变化时每增加1亿元GDP增加1.8554亿元。GDP增加的1.8554亿元中的直接贡献只用1亿元,回归方程外的和的贡献是0.8554亿元。这里又出现一个问题,为什么回归方程外的和贡献是0.8554亿元,而不是2亿元呢?可以通过考察数据,的增加幅度远大于和的增加幅度,假如增加1亿元,和相应的增加幅度都达不到1亿元。 四、参数估计 要想用OLSE估计多元线性回归模型的未知数,样本容量必须不少于模型中参数的个数。 在正态假定下,回归参数的MLE(最大似然估计)与OLSE(最小二乘估计)完全相同,即,误差项方差的MLE为,这是的有偏估计,但它满足一致性,在大样本的情况下,是的渐近无偏估计量。 参数估计量的性质: 性质1,是随机向量y的一个线性变换 性质2,是的无偏估计 性质3, 性质4,高斯-马尔科夫(G-M)定理 (1)是的无偏估计 (2)的方差要小 高斯-马尔科夫定理 在假定,时,的任一线性函数的最小方差线性无偏估计为,其中c是任一p+1维常数向量,是的最小二乘估计。 此定理说明了用OLSE估计得到的估计量是理想的估计量。关于这条性质,需要注意以下四点: 第一,取常数向量c的第j()分量为1,其余分量为0,这时G-M定理表明最小二乘估计是的最小方差线性无偏估计。 第二,可能存在的非线性函数,作为的无偏估计,比最小二乘估计的方差更小。 第三,可能存在的有偏估计量,在某种意义(例如均方差最小)下比最小二乘估计更好。 第四,在正态假定下,是的最小方差无偏估计。 性质5,,在正态假定下与e不相关等价与与e独立,从而与SEE=独立。 性质6,当时,则 五、自变量的显著性 如何剔除多余的不显著的自变量?y对自变量线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉后,用y对其余的p-1个自变量作回归,所得的残差平方和记为,回归平方和为,则自变量对回归的贡献为:,称为的偏回归平方和。由此可以构造偏F统计量:,当原假设成立时,偏F统计量服从自由度为(1,n-p-1)的F分布,此F检验与回归系数的t检验是一致的,当从回归方程中剔除变量时,回归平方和减少,残差平方和增加。反之,当往回归方程中引入变量时,回归平方和增加,残差平方和减少,两者的增减量同样相等。 六、关于拟合优度 ,与回归方程中自变量的数目以及样本容量n有关,当样本容量n与自变量个数接近时,易接近1,其中隐含着一些虚假成分。由决定模型优劣时还需慎重。 七、中心化和标准化 因为多元回归涉及的数据量很大,就可能由于舍入误差而使计算结果不理想。产生舍入误差有两个主要原因,一是回归分析计算中数据量级有很大差异,比如数据10000与0.1111这样的大小相差悬殊的数据出现在同一个计算中;二是设计矩阵 的列向量近似线性相关时,为病态矩阵,其逆矩阵就会产生较大的误差。 1、中心化 多元线性回归模型的一般形式为:

文档评论(0)

linlin921 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档