《SAS系统和数据分析逐步回归分析》.docVIP

下载本文档

18
0
约3.45万字
约 25页
2016-12-10 发布于贵州
举报
版权申诉

《SAS系统和数据分析逐步回归分析》.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《SAS系统和数据分析逐步回归分析》

逐步回归分析逐步回归分析在一个多元线性回归模型中，并不是所有的自变量都与因变量有显著关系，有时有些自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。在可能自变量的整个集合有40到60个，甚至更多的自变量的情况下，使用“最优”子集算法可能并不行得通。那么，逐步产生回归模型要含有的X变量子集的自动搜索方法，可能是有效的。逐步回归方法可能是应用最广泛的自动搜索方法。这是在求适度“好”的自变量子集时，同所有可能回归的方法比较，为节省计算工作量而产生的。从本质上说，这种方法在每一步增加或剔除一个X变量时，产生一系列回归模型。增加或剔除一个X变量的准则，可以等价地用误差平方和缩减量、偏相关系数或F统计量来表示。无疑选择自变量要靠有关专业知识，但是作为起参谋作用的数学工具，往往是不容轻视的。通常在多元线性模型中，我们首先从专业角度选择有关的为数众多的因子，然后用数学方法从中选择适当的子集。本节介绍的逐步回归法就是人们在实际问题中常用的，并且行之有效的方法。逐步回归的基本思想是，将变量一个一个引入，引入变量的条件是偏回归平方和经检验是显著的，同时每引入一个新变量后，对已选入的变量要进行逐个检验，将不显著变量剔除，这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。逐步回归是这样一种方法，使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。Efroymoson (1966)编的程序中，有两个F水平，记作Fin和Fout，在每一步时，只有一个回归因子，比如说Xi，如果剔除它可能引起RSS的减少不超过残差均方MSE（即ESS/(N-k-1)）的Fout倍，则将它剔除；这就是在当前的回归模型中，用来检验i=0的F比是小于或等于Fout。若剔除的变量需要选择，则就选择使RSS减少最少的那一个（或等价的选择F比最小的）。用这种方式如果没有变量被剔除，则开始引进一个回归因子，比如Xj，如果引进它后使RSS的增加，至少是残差均方的Fin倍，则将它引进。即若在当前模型加Xj项后，为了检验 j =0的F比，F ≥Fin时，则引进Xj，其次，若引进的变量需要选择，则选择F比最大的。程序按照上面的步骤开始拟合，当没有回归因子能够引进模型时，该过程停止。变量选择的方法若在回归方程中增加自变量Xi，称为“引入”变量Xi，将已在回归方程中的自变量Xj从回归方程中删除，则称为“剔除”变量Xj。无论引入变量或剔除变量，都要利用F检验，将显著的变量引入回归方程，而将不显著的从回归方程中剔除。记引入变量F检验的临界值为Fin（进），剔除变量F检验的临界值为Fout（出），一般取Fin≥Fout，它的确定原则一般是对k个自变量的m个(m ≤k)，对显著性水平df1=1，df2=的F分布表的值，记为F*，则取Fin=Fout= F*。一般来说，也可以直接取Fin=Fout=2.0或2.5。当然，为了回归方程中还能够多进入一些自变量，甚至也可以取为1.0或1.5。变量增加法首先对全部k个自变量，分别对因变量Y建立一元回归方程，并分别计算这k个一元回归方程的k个回归系数F检验值，记为{}，选其最大的记为 = max{},若有≥ Fin，则首先将X1引入回归方程，不失一般性，设Xi就是X1。接着考虑X1分别与X2,X3,...,Xk与因变量Y组成二元回归方程，对于这k－1个回归方程中X2,...,Xk的回归系数进行F检验，计算F值，并选其最大的F值,若≥Fin,则接着就将Xj引入回归方程，不失一般性，设Xj就是X2。对已经引入回归方程的变量X1和X2，如同前面的方法做下去，直至所有未被引入方程的变量的F值均小于Fin时为止。这时的回归方程就是最终选定的回归方程。显然，这种增加法有一定的缺点，主要是，它不能反映后来变化的情况。因为对于某个自变量，它可能开始是显著的，即将其引入到回归方程，但是，随着以后其他自变量的引入，它也可能又变为不显著了，但是，并没有将其及时从回归方程中剔除掉。也就是增加变量法，只考虑引入而不考虑剔除。变量减少法与变量增加法相反，变量减少法是首先建立全部自变量X1,X2,...,Xk对因变量Y的回归方程，然后对k个回归系数进行F检验，记求得的F值为{}，选其最小的记为=min{},若有≤Fout，则可以考虑将自变量Xi从回归方程中剔除掉，不妨设Xi就取为X1。再对X2,X3,...,Xk对因变量Y建立的回归方程重复上述过程，取最小的F值为，若有≤Fout，则将Xj也从回归方程中剔除掉。不妨设Xj就是X2。重复前面的做法，直至在回归方程中的自变量F检验值均大于Fout，即没有变量可剔除为止。这时的回归方程就是最终的回归方程。这种减少