变量选择
变量选择方法简介
嵌入式变量选择法
主成分分析和变量聚类
一 简介
变量选择方法类型
封装式 Wrappers Method
把学习器当做黑盒子,输入子集输出模型,用模型预测的准确性对选择的子集进行打分
包括All possible subsets、随机选择等
过滤式 Filters Method
在拟合模型前根据法则选择变量,选择方法与被选模型独立
forward、backward、stepwise
嵌入式 Embedded Methods
变量选择在学习器训练的同时进行
lasso, elastic net, LAR,岭回归
变量选择方法特点
方法
优点
缺点
Wrappers
全局搜索能找到最优子集
计算上不可行
Filters
算法简单,计算省时
有偏搜索,得到局部最优解
Embedded
在模型拟合同时完成变量选择
有偏搜索
变量选择
变量选择第一步:人工剔除
人工剔除 ≠ 人工选择,如果无充分的理由剔除,倾向于保留变量或更换变量
可以考虑剔除变量的情形:
部分变量长度不够(缺失值过多、频率与其余变量不同、有效观测长度比其余变量短)
变量自由度小于变量个数
变量与因变量显著无联系
数据为常量——固定汇率
数据人为设定/控制——GDP、失业率、利率的处理比较
错值太多
统计口径不一致
……
SAS 中的变量预处理:EM模块
SAS 中的变量选择方法:proc glmselect
SAS 中的变量选择方法:proc glmselect
二 嵌入式方法
嵌入式与过滤式的比较:
过滤式方法
主要思想就是根据预设规则搜索局部最优模型
通过设定变量进入模型、搜索停止和在搜索所得模型中选择最优模型的准则确定搜索规则
主要包括forward、backward、stepwise
准则有各种信息准则、显著水平(SLESLS)、R方、调整R方及衡量模型预测准确性的统计量等
嵌入式方法
加入与系数绝对值大小有关的惩罚项,最小化模型误差与惩罚项的和,找到模型拟合程度和系数个数的平衡
主要包括lasso、lar及它们的变种方法
因为要确定惩罚项中参数的最优值,许多嵌入式方法也可看作是一种过滤式搜索方法;或者将嵌入式方法当做筛选变量的方法,仍用OLS拟合系数
1 LASSO -least absolute shrinkage and selection operator
LASSO算法思想:
加入惩罚项的最小二乘回归
无惩罚项或t足够大时,与普通最小二乘回归等价
随着t值变小,系数不断变小,部分系数会收缩至0
当t采用从0增大的方向时,选入回归模型的变量会逐渐增多,当增大到某个值时,所有变量都入选了回归模型,这个时候得到的回归模型的系数是通常意义下的最小二乘估计。用这种方法,lasso也可以看做是一种逐步回归的过程。(SAS中proc glmselect的lasso实现方法)
LASSO与OLS、岭回归的联系
LASSO可看做岭回归的改进,有偏但减少方差,同时进行变量选择
2 Elastic Net
The Elastic Net is a regression method proposed by Zou and Hastie17 in 2005 that combines the penalty terms of LASSO and Ridge regression.
α=0时为lasso;α=1时为岭回归。
3 Adaptive Lasso 自适应lasso
4 LAR 最小角回归
LAR算法思想:
初始将方程所有系数置为0,选择与残差相关性最高的变量对残差进行拟合;
当备选变量与残差的相关性大于原有变量与残差的相关性时,引入新变量。
LARS的算法实际执行步骤如下:
1. 对Predictors进行标准化(去除不同尺度的影响),对Target Variable进行中心化(去除截距项的影响),初始的所有系数都设为0,此时残差 r 就等于中心化后的Target Variable
2. 找出和残差r相关度最高的变量Xi
3. 将Xi的系数Bi从0开始沿着LSE(只有一个变量Xi的最小二乘估计)的方向增大,直到某个新的变量Xj与残差r的相关性大于Xi时
4. Xi和Xj的系数Bi和Bj,一起沿着新的LSE(加入了新变量Xj的最小二乘估计)的方向移动,直到有新的变量被选入
5. 重复2,3,4,直到所有变量被选入,最后得到的估计就是普通线性回归的OLS
5 LAR、LASSO与OLS的混合方法
把LAR或LASSO当做一种stepwise选择变量的方法,但拟合模型系数仍用OLS
三 主成分分析与变量聚类
主成分分析用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行
您可能关注的文档
- 传染性单核细胞增多症解释.ppt
- 传染性脓疱解释.ppt
- 传热-第8章-2解释.ppt
- TURP并发症及其防治精编.ppt
- TVSystemIntroduction精编.ppt
- T淋巴细胞及其亚群检测的临床意义精编.ppt
- 传热学第5章解释.ppt
- T淋巴细胞介导的细胞免疫应答精编.ppt
- T淋巴细胞亚群及其临床意义精编.ppt
- 传热学复习解释.ppt
- 2026年及未来5年内中国液体氩气行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国黄铜合页行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国竹工艺家具行业投资前景及策略咨询研究报告.docx
- 2025年中国微机数显自动分析仪市场调查研究报告.docx
- 2026年及未来5年内中国微尘白色粉笔行业投资前景及策略咨询研究报告.docx
- 2025年中国微电脑型压胶机市场调查研究报告.docx
- 2026年及未来5年内中国数字化等功游泳训练测试系统行业投资前景及策略咨询研究报告.docx
- 2025年中国圆形花瓶市场调查研究报告.docx
- 2026年及未来5年内中国植物纤维静淀过滤器行业投资前景及策略咨询研究报告.docx
- 2025年中国超音波手套机市场调查研究报告.docx
最近下载
- 档案录入员考试真题及答案.docx VIP
- 高考数学专题复习《排列组合二项式定理与概率统计》.pdf VIP
- 2025内蒙古地质矿产集团有限公司子公司招聘工作人员21人笔试备考试题及答案解析.docx VIP
- 2026年湖南有色金属职业技术学院单招职业技能考试备考试题有答案解析.docx VIP
- 2026年湖南有色金属职业技术学院单招综合素质笔试模拟试题及答案详解.docx VIP
- 内蒙古地质矿产集团有限公司招聘考试真题2024.pdf VIP
- 2026年湖南有色金属职业技术学院单招职业技能考试模拟试题附答案详解.docx VIP
- 2026年湖南有色金属职业技术学院单招综合素质考试模拟试题及答案详解.docx VIP
- 外科创伤课件.PPT VIP
- 2026年湖南有色金属职业技术学院单招综合素质考试备考试题及答案详解.docx VIP
原创力文档

文档评论(0)