- 8
- 0
- 约2.06万字
- 约 75页
- 2017-08-22 发布于江苏
- 举报
筛选逐步回归
一种新的回归分析方法— 筛选逐步回归 1 多元线性回归模型及回归方法 值得指出的是,自变数对Y的作用可能还存在非线性主效 (k=2~3)及互作 效应(u,v=1,2, …, q,最常见的 q 是1~3)。在多元线性回归分析中,需将该效应项按数据转换的方式转化成一个新的自变数,模型增加一项,结构矩阵中增加相应一列(数据变换列),并增加一个偏回归系数。总的自变数项相应增加至 p (pm)个,从而采用前述过程进行线性回归分析。 其中 为信息阵, 为常数阵,C=inv(A)为信息阵的逆阵,该矩阵的对角线元素是相应偏回归系数标准化的误差方差,非对角线元素是两个偏回归系数标准化的协方差。所谓标准化的含义是将离回归方差视为1,即回归系数方差与标准差: 1.3 逐步回归 一个多变数资料,往往既有对依变数有显著线性效应的自变数,也含有没有显著效应的自变数。在多元线性回归分析时,需将没有显著效应的自变数予以剔除,使所得多元回归方程比较简化而又能较准确地分析和预测 Y 的反应。这一过程称为多元回归自变数的统计选择。逐步回归有两种基本方法—逐个选入法与逐个剔除法。 1.3.1逐个选入法 逐个选入法以全模型相关系数阵 为基础,其中M为包括依变数在内的所有变数(项)的个数,其最后1行1列是各自变数(项)与依变数的相关系数。每次选入一个对依变数有显著作用且偏回归平方和最大的自变数,采用求解求逆的方式对相关系数矩阵进行变换,并对先前已入选的自变数进行测验,若有变为不显著的,将其中偏回归平方和最小的一个自变数予以剔除。不断重复此过程,直至所有对依变数有显著作用的自变数均已选入。若已进行了k-1步,且有p-1个自变数选入,则逐个选入法第k步有下列4个步骤: 1)需进一步计算未入选自变数对依变数作用的统计数——偏决定系数: 3)对Xl的偏回归显著性进行测验: 4)求算在Xl选入的条件下,其他先前入选的自变数Xi的偏决定系数: ,对于Xl, 此值必与式(10)计算所得相同。对前面已经入选的自变数Xi进行F测验: 上述过程循环往复,直至所有对依变数有显著作用的自变数均已选入,对依变数没有显著作用的自变数均已剔除,从而获得简化而又较准确反应自变数与依变数关系的多元回归方程。 1.3.2 逐个剔除法 先将全部自变数对依变数作全模型回归分析,按式(5)求算回归统计数,并按式(8)进行偏回归关系的假设测验,剔除一个对依变数偏回归平方和最小且不显著的自变数,回归模型的设计矩阵中相应减少一列。此后继续进行子模型的回归分析和偏回归测验,直至所有的自变数项都对依变数有显著的偏回归作用。 1.3.3 两种逐步回归方法的比较 逐步回归的统计分析方法比较成熟,大多数统计软件都有这样的模块和命令,便于应用者使用。用这两种逐步回归方法分别处理同一多变数资料时,在大多数情况下得到相同的结果,即最终的回归模型中包含的自变数项是一样的。但也有一些情况两者所得的结果并不完全相同。一般地说,如能预期要剔除的自变数不多,可用逐个剔除法;反之,如果倾向于选入较少自变数时,可用逐个选入法。这样相对简单且正确。 1.4 回归分析的基本假定及主要存在问题 多元线性回归分析除了假定误差是正态分布外,还假定每一自变数对依变数的作用仅为线性。假定不满足会对回归结果产生较大影响。同时,回归分析仅适用于自变数(项)的个数(p)少于观察值组数(n),并且自变数间不存在共线性的情形。否则结构阵不满秩,信息阵是奇异的或病态的,逆阵不存在或有很大偏差,无法求解回归系数或有很大误差,难于对回归模型及回归统计数进行客观真实的假设测验。在多变数复杂效应回归分析时,结构阵不满秩,经典的逐个剔除法或逐个选入法均以信息阵为基础,逐步回归无法进行,或所得结果不可信。 1.5 回归分析中上述问题的解决办法 回归分析应用广泛,在多数情况下能得到理想的效果。但回归分析中上述问题的存在比较普遍,传统的回归分析方法将失效、或结果难于反映客观实际,误用情形很普遍 。 对解决此类问题有一定效果的方法有岭回归法、MINQUE法、主成分法、Bayesian皱缩法等。下面对此略作简介。 1.5.2 MINQUE法 1.5.3 主成分回归 先将 X 变数进行主成分分析,选取能包含原有信息约80-90%的前若干个主成分(在自变数很多的情况下,大部分将被剔除)。将 Y 依这些主成分进行回归分析。这些自变数相互独立,其信息阵A为对角阵,必不可能奇异,回归分析得以正常进行,且回归方程比较简洁—包含的主成分一般较少。
原创力文档

文档评论(0)