Variablesselection精编.pptx

变量选择 变量选择方法简介 嵌入式变量选择法 主成分分析和变量聚类 一 简介 变量选择方法类型 封装式 Wrappers Method 把学习器当做黑盒子,输入子集输出模型,用模型预测的准确性对选择的子集进行打分 包括All possible subsets、随机选择等 过滤式 Filters Method 在拟合模型前根据法则选择变量,选择方法与被选模型独立 forward、backward、stepwise 嵌入式 Embedded Methods 变量选择在学习器训练的同时进行 lasso, elastic net, LAR,岭回归 变量选择方法特点 方法 优点 缺点 Wrappers 全局搜索能找到最优子集 计算上不可行 Filters 算法简单,计算省时 有偏搜索,得到局部最优解 Embedded 在模型拟合同时完成变量选择 有偏搜索 变量选择 变量选择第一步:人工剔除 人工剔除 ≠ 人工选择,如果无充分的理由剔除,倾向于保留变量或更换变量 可以考虑剔除变量的情形: 部分变量长度不够(缺失值过多、频率与其余变量不同、有效观测长度比其余变量短) 变量自由度小于变量个数 变量与因变量显著无联系 数据为常量——固定汇率 数据人为设定/控制——GDP、失业率、利率的处理比较 错值太多 统计口径不一致 …… SAS 中的变量预处理:EM模块 SAS 中的变量选择方法:proc glmselect SAS 中的变量选择方法:proc glmselect 二 嵌入式方法 嵌入式与过滤式的比较: 过滤式方法 主要思想就是根据预设规则搜索局部最优模型 通过设定变量进入模型、搜索停止和在搜索所得模型中选择最优模型的准则确定搜索规则 主要包括forward、backward、stepwise 准则有各种信息准则、显著水平(SLESLS)、R方、调整R方及衡量模型预测准确性的统计量等 嵌入式方法 加入与系数绝对值大小有关的惩罚项,最小化模型误差与惩罚项的和,找到模型拟合程度和系数个数的平衡 主要包括lasso、lar及它们的变种方法 因为要确定惩罚项中参数的最优值,许多嵌入式方法也可看作是一种过滤式搜索方法;或者将嵌入式方法当做筛选变量的方法,仍用OLS拟合系数 1 LASSO -least absolute shrinkage and selection operator LASSO算法思想: 加入惩罚项的最小二乘回归 无惩罚项或t足够大时,与普通最小二乘回归等价 随着t值变小,系数不断变小,部分系数会收缩至0 当t采用从0增大的方向时,选入回归模型的变量会逐渐增多,当增大到某个值时,所有变量都入选了回归模型,这个时候得到的回归模型的系数是通常意义下的最小二乘估计。用这种方法,lasso也可以看做是一种逐步回归的过程。(SAS中proc glmselect的lasso实现方法) LASSO与OLS、岭回归的联系 LASSO可看做岭回归的改进,有偏但减少方差,同时进行变量选择 2 Elastic Net The Elastic Net is a regression method proposed by Zou and Hastie17 in 2005 that combines the penalty terms of LASSO and Ridge regression. α=0时为lasso;α=1时为岭回归。 3 Adaptive Lasso 自适应lasso 4 LAR 最小角回归 LAR算法思想: 初始将方程所有系数置为0,选择与残差相关性最高的变量对残差进行拟合; 当备选变量与残差的相关性大于原有变量与残差的相关性时,引入新变量。 LARS的算法实际执行步骤如下: 1. 对Predictors进行标准化(去除不同尺度的影响),对Target Variable进行中心化(去除截距项的影响),初始的所有系数都设为0,此时残差 r 就等于中心化后的Target Variable 2. 找出和残差r相关度最高的变量Xi 3. 将Xi的系数Bi从0开始沿着LSE(只有一个变量Xi的最小二乘估计)的方向增大,直到某个新的变量Xj与残差r的相关性大于Xi时 4. Xi和Xj的系数Bi和Bj,一起沿着新的LSE(加入了新变量Xj的最小二乘估计)的方向移动,直到有新的变量被选入 5. 重复2,3,4,直到所有变量被选入,最后得到的估计就是普通线性回归的OLS 5 LAR、LASSO与OLS的混合方法 把LAR或LASSO当做一种stepwise选择变量的方法,但拟合模型系数仍用OLS 三 主成分分析与变量聚类 主成分分析用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行

文档评论(0)

1亿VIP精品文档

相关文档