网站大量收购独家精品文档,联系QQ:2885784924

应用统计——多元线性回归.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元线性回归模型 记 则有 因此 和一元回归模型类似,我们也有 有了上面的结论,我们可以导出检验 在检验方法.在这里就不讨论了,留给大家思考. 预测 变量选择及多元共线性性问题 在多元线性回归模型是,由于有多个自变量,存在一些有一元线性回归模型中不会遇到的问题。本节讨论两个涉及到变量之间关系的问题。第一个问题是关于自变量与因变量之间的关系。当我们就一个实际问题建立多元线性回归模型时,可能会考虑到多个对因变量有潜在影响的自变量,但在对数据进行分析之前无法事先断定哪些变量是有效的(对因变量有显著影响),哪些是无效的(对因变量没有显著影响)。有效变量应该保留在模型中,而无效变量应该从模型中去掉。因为无效变量在模型中会对分析结果产生干扰,从而产生误导。那么究竟哪些变量是有效的,哪些变量是无效的呢?这就是变量选择的问题。 第二个问题是关于自变量之间的关系。在某些实际问题中(如在实验室或某些工业生产条件下),观测者(试验者)可以控制自变量的值,这是他可以在事先设计好的自变量值上观测因变量。而在另一些情况下(研究社会、地质、水文)。观测者不能控制自变量的值,或者说自变量是随机变量。这时,自变量之间会有统计相关性。当这种统计相关性很强时就产生“多元共线性”的问题。多元共线性的存在对回归分析的结果产生很坏的影响。因此数据分析应该考虑多元共线性的影响,并知道用何种方法去克服这种影响。 例: * 变量选择的方法 从原则上讲,一个好的模型应该包含所有的有效变量,而不包含任何无效变量 准则是根据的 大小在所有可能的模型中选择“最优模型”的一种方法 设备选的自变量共有K个,先假定已知有效变量的数目为r,我们来考虑恰好包含r个变量的模型,这样的模型共有 个 r个自变量对因变量的总的影响可以由它的决定系数 来度量 总的原则: 越大,自变量对因变量的总影响 也越大 在计算决定系数时,由于SST为因变量的总平方和 ,在任何模型下是不变的,只须计算各个模型下的回归平方和SSR 一般情况,有效变量的个数r未知时,在这种情况下如何确定最佳模型? 考虑如下的思路,对j个有效回归变量的模型中按上述方法找到最佳模型,此时最佳模型的决定系数记为 可以得出 如何找出r 根据决定系数增加的快慢来确定r,当它由快变慢形成拐点时,此时的最优模型的自变量的个数就是r 缺点: 准则要求对所有可能的回归模型计算 ,当备选变量的数目比较小时,用这种方法可以保证对给定的有效变量的个数r找到理论上的最优模型。但当备选变量的数目比较大时,用这种方法其计算量非常地大 向后、向前、逐步回归 (1)向后回归法 其基本思路是:先将所有可能对因变量产生影响的自变量都纳入模型,然后逐个地从中剔除认为是最没有价值的变量,直至所留在模型中的变量都不能被剔除,或者模型中没有任何变量为止。在逐步的剔除过程中,每次都对当前模型中的所有变量计算评估附加影响的F统计量,并找到其中最小的。如果最小F统计量超过指定的临界值 Fout ,当前模型中的所有变量都保留,将当前模型作为最终模型,程序终止。反之,如果最小F统计量达不到临界值,就将相应的变量加以剔除,得到一个较小的模型。在新的模型下重复以上作法。以上步骤不断进行,直至没有变量可以剔除,或者模型中没有任何变量为止。最终的模型就是所选定的“最优”模型。标准的统计软件通常还输出所有中间模型。 (2)向前回归法 其基本思路是:先将所有可能对因变量产生影响的自变量作为备选的变量集,都放在模型之外,从零模型,即不包含任何自变量的模型开始,然后逐个地向模型中加入被认为是最有附加价值的变量,直至所留在模型外的变量都不能被加入,或者所有备选的变量都已加入模型为止。在逐步加入的过程中,第一步对所有变量计算当模型中只有一个变量时的F统计量,并找到其中最大的。如果最大F统计量不超过临界值Fin,则所有在模型外的变量都不能加入到模型中去,将零模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到模型中去。从第二步开始,每次都对当前模型外的任一变量计算;当这个变量被加入模型后,在新模型下计算它的F统计量,并找到其中最大的。如果最大F统计量不超过临界值,可以认为所有在当前模型外的变量都是无效变量,因此都不能加入到当前模型中去,将当前模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到当前模型中去,得到一个较大的模型。以上步骤不断进行,直

文档评论(0)

wxc6688 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档