应用统计——多元线性回归.ppt

下载文档 降价啦

2
0
约2.37千字
约 10页
2018-05-16 发布于四川
举报
版权申诉
保障服务

应用统计——多元线性回归.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

多元线性回归模型记则有因此和一元回归模型类似,我们也有有了上面的结论,我们可以导出检验在检验方法.在这里就不讨论了,留给大家思考. 预测变量选择及多元共线性性问题在多元线性回归模型是，由于有多个自变量，存在一些有一元线性回归模型中不会遇到的问题。本节讨论两个涉及到变量之间关系的问题。第一个问题是关于自变量与因变量之间的关系。当我们就一个实际问题建立多元线性回归模型时，可能会考虑到多个对因变量有潜在影响的自变量，但在对数据进行分析之前无法事先断定哪些变量是有效的（对因变量有显著影响），哪些是无效的（对因变量没有显著影响）。有效变量应该保留在模型中，而无效变量应该从模型中去掉。因为无效变量在模型中会对分析结果产生干扰，从而产生误导。那么究竟哪些变量是有效的，哪些变量是无效的呢？这就是变量选择的问题。第二个问题是关于自变量之间的关系。在某些实际问题中（如在实验室或某些工业生产条件下），观测者（试验者）可以控制自变量的值，这是他可以在事先设计好的自变量值上观测因变量。而在另一些情况下（研究社会、地质、水文）。观测者不能控制自变量的值，或者说自变量是随机变量。这时，自变量之间会有统计相关性。当这种统计相关性很强时就产生“多元共线性”的问题。多元共线性的存在对回归分析的结果产生很坏的影响。因此数据分析应该考虑多元共线性的影响，并知道用何种方法去克服这种影响。例： * 变量选择的方法从原则上讲，一个好的模型应该包含所有的有效变量，而不包含任何无效变量准则是根据的大小在所有可能的模型中选择“最优模型”的一种方法设备选的自变量共有K个，先假定已知有效变量的数目为r，我们来考虑恰好包含r个变量的模型，这样的模型共有个 r个自变量对因变量的总的影响可以由它的决定系数来度量总的原则：越大，自变量对因变量的总影响也越大在计算决定系数时，由于SST为因变量的总平方和，在任何模型下是不变的，只须计算各个模型下的回归平方和SSR 一般情况，有效变量的个数r未知时，在这种情况下如何确定最佳模型？考虑如下的思路，对j个有效回归变量的模型中按上述方法找到最佳模型，此时最佳模型的决定系数记为可以得出如何找出r 根据决定系数增加的快慢来确定r，当它由快变慢形成拐点时，此时的最优模型的自变量的个数就是r 缺点：准则要求对所有可能的回归模型计算，当备选变量的数目比较小时，用这种方法可以保证对给定的有效变量的个数r找到理论上的最优模型。但当备选变量的数目比较大时，用这种方法其计算量非常地大向后、向前、逐步回归（1）向后回归法其基本思路是：先将所有可能对因变量产生影响的自变量都纳入模型，然后逐个地从中剔除认为是最没有价值的变量，直至所留在模型中的变量都不能被剔除，或者模型中没有任何变量为止。在逐步的剔除过程中，每次都对当前模型中的所有变量计算评估附加影响的F统计量，并找到其中最小的。如果最小F统计量超过指定的临界值 Fout ，当前模型中的所有变量都保留，将当前模型作为最终模型，程序终止。反之，如果最小F统计量达不到临界值，就将相应的变量加以剔除，得到一个较小的模型。在新的模型下重复以上作法。以上步骤不断进行，直至没有变量可以剔除，或者模型中没有任何变量为止。最终的模型就是所选定的“最优”模型。标准的统计软件通常还输出所有中间模型。（2）向前回归法其基本思路是：先将所有可能对因变量产生影响的自变量作为备选的变量集，都放在模型之外，从零模型，即不包含任何自变量的模型开始，然后逐个地向模型中加入被认为是最有附加价值的变量，直至所留在模型外的变量都不能被加入，或者所有备选的变量都已加入模型为止。在逐步加入的过程中，第一步对所有变量计算当模型中只有一个变量时的F统计量，并找到其中最大的。如果最大F统计量不超过临界值Fin，则所有在模型外的变量都不能加入到模型中去，将零模型作为最终模型，程序终止。反之，如果最大F统计量超过临界值，就将相应的变量加入到模型中去。从第二步开始，每次都对当前模型外的任一变量计算；当这个变量被加入模型后，在新模型下计算它的F统计量，并找到其中最大的。如果最大F统计量不超过临界值，可以认为所有在当前模型外的变量都是无效变量，因此都不能加入到当前模型中去，将当前模型作为最终模型，程序终止。反之，如果最大F统计量超过临界值，就将相应的变量加入到当前模型中去，得到一个较大的模型。以上步骤不断进行，直