SAS学习系列24.逐步回归总汇.docxVIP

  • 32
  • 0
  • 约8.12千字
  • 约 18页
  • 2016-11-28 发布于湖北
  • 举报
24. 逐步回归 一、原理 多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。 逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。 逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。 二、步骤 记引入变量F检验的临界值为Fin,剔除变量F检验的临界值为Fout,一般取Fin ≥Fout. 其确定原则:对k个自变量中的m个(m≤k),则记F*=F(1,N-m-1),取Fin=Fout= F*. 一般也可以直接取Fin=Fout=2.0或2.5. 要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5. 1. 前进法(变量增加法) 首先对全部k个自变量,分别对因变量Y建立一元回归方程,并分别计算k个回归系数的F检验值,记为{},记为 = max{}, 若有≥Fin,则将Xi引入回归方程,记为X1. 接着考虑X1分别与其它自变量与因变量Y二元回归方程,选出最大F值若大于Fin, 则将该变量引入回归方程,记为X2, 依次类推,直到所有末被引入回归方程的自变量的F值均小于Fin时为止。 增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有及时从回归方程中将它剔除掉。 2. 后退法(变量减少法) 首先建立全部自变量X1,X2,...,Xk对因变变量Y的回归方程,然后分别求出k个回归系数的F值为{},记=min{},若有≤Fout,则将自变量Xi从回归方程中剔除掉。以此类推,直到在回归方程中的自变量的F值均大于Fout为止。 减少法的缺点是,一开始把全部变量都引入回归方程,这样计算量比较大。 3. 逐步筛选法(变量增减法) 在实际的数据中,自变量X1,X2,...,Xk之间往往并不是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发生变化。 因此将前两种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著的,不在回归方程中的自变量均不显著。 三、需要注意的问题 1. 实际中,往往不使用每次计算出的Fin和Fout, 而是使用固定的F 值(避免出现Fin Fout, 造成死循环); 2. 自变量进入模型的顺序并不反映它们的重要程度; 3. 逐步回归方法的一个局限是,预先假定有单一的最优X变量子集,也可能还有其它最优选择; 4. 逐步回归方法的另一个缺点是,当X变量高度相关时,有时会得到不合理的“最优”子集。 四、PROC REG过程步 基本语法: PROC REG data = 数据集; MODEL 因变量 = 自变量列表 / SELECTION=选项; SELECTION=选项 用于逐步回归中选择合适的建立模型方法: none——全部变量都选 forward——前进法 backward——后退法 stepwise——逐步筛选法 maxr——最大R2增量法 minr——最小R2增量法 rsquare——R2选择法 cp——Mallows Cp选择法 adjrsq——修正的R2选择法 注:在前进法、后退法或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,分别由model语句的选项slentry=和slstay=设定的: start= s指定先从s个自变量的回归模型开始; stop=s指定找到s个自变量的回归模型结束; Mallows的Cp统计量——是由Mallows提出的作为选择模型的判别式的变量。Cp是一个误差平方总和的量度: 其中,P是模型中包括截距项的参数个数,MSE是满模型时均方误差,ESSp是具有P个自变量(包括截距项)回归模型的误差平方和。作Cp与P的曲线图,Matlows建议取Cp 首次接近P的地方的模型。 常用的输出可选项: STB——输出标准化偏回归系数矩阵 CORRB——输出参数估计矩阵 COLLINOINT——对自变量进行共线性分析 P——输出个体观测值、预测值及残差 (R/CLM/CLI包含P) R——输出每个个体观测值、残差及标准误差 CLM——输出因变量均值95%的置信界限的上下限 CLI——对各预测值输出95%的置信界限的上下限 MSE——要求输出随机扰动项方差??2的估计 与残差分析有关的可选项 ?

文档评论(0)

1亿VIP精品文档

相关文档