- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
变量选择
变量选择方法简介
嵌入式变量选择法
主成分分析和变量聚类
一 简介
变量选择方法类型
封装式 Wrappers Method
把学习器当做黑盒子,输入子集输出模型,用模型预测的准确性对选择的子集进行打分
包括All possible subsets、随机选择等
过滤式 Filters Method
在拟合模型前根据法则选择变量,选择方法与被选模型独立
forward、backward、stepwise
嵌入式 Embedded Methods
变量选择在学习器训练的同时进行
lasso, elastic net, LAR,岭回归
变量选择方法特点
方法
优点
缺点
Wrappers
全局搜索能找到最优子集
计算上不可行
Filters
算法简单,计算省时
有偏搜索,得到局部最优解
Embedded
在模型拟合同时完成变量选择
有偏搜索
变量选择
变量选择第一步:人工剔除
人工剔除 ≠ 人工选择,如果无充分的理由剔除,倾向于保留变量或更换变量
可以考虑剔除变量的情形:
部分变量长度不够(缺失值过多、频率与其余变量不同、有效观测长度比其余变量短)
变量自由度小于变量个数
变量与因变量显著无联系
数据为常量——固定汇率
数据人为设定/控制——GDP、失业率、利率的处理比较
错值太多
统计口径不一致
……
SAS 中的变量预处理:EM模块
SAS 中的变量选择方法:proc glmselect
SAS 中的变量选择方法:proc glmselect
二 嵌入式方法
嵌入式与过滤式的比较:
过滤式方法
主要思想就是根据预设规则搜索局部最优模型
通过设定变量进入模型、搜索停止和在搜索所得模型中选择最优模型的准则确定搜索规则
主要包括forward、backward、stepwise
准则有各种信息准则、显著水平(SLESLS)、R方、调整R方及衡量模型预测准确性的统计量等
嵌入式方法
加入与系数绝对值大小有关的惩罚项,最小化模型误差与惩罚项的和,找到模型拟合程度和系数个数的平衡
主要包括lasso、lar及它们的变种方法
因为要确定惩罚项中参数的最优值,许多嵌入式方法也可看作是一种过滤式搜索方法;或者将嵌入式方法当做筛选变量的方法,仍用OLS拟合系数
1 LASSO -least absolute shrinkage and selection operator
LASSO算法思想:
加入惩罚项的最小二乘回归
无惩罚项或t足够大时,与普通最小二乘回归等价
随着t值变小,系数不断变小,部分系数会收缩至0
当t采用从0增大的方向时,选入回归模型的变量会逐渐增多,当增大到某个值时,所有变量都入选了回归模型,这个时候得到的回归模型的系数是通常意义下的最小二乘估计。用这种方法,lasso也可以看做是一种逐步回归的过程。(SAS中proc glmselect的lasso实现方法)
LASSO与OLS、岭回归的联系
LASSO可看做岭回归的改进,有偏但减少方差,同时进行变量选择
2 Elastic Net
The Elastic Net is a regression method proposed by Zou and Hastie17 in 2005 that combines the penalty terms of LASSO and Ridge regression.
α=0时为lasso;α=1时为岭回归。
3 Adaptive Lasso 自适应lasso
4 LAR 最小角回归
LAR算法思想:
初始将方程所有系数置为0,选择与残差相关性最高的变量对残差进行拟合;
当备选变量与残差的相关性大于原有变量与残差的相关性时,引入新变量。
LARS的算法实际执行步骤如下:
1. 对Predictors进行标准化(去除不同尺度的影响),对Target Variable进行中心化(去除截距项的影响),初始的所有系数都设为0,此时残差 r 就等于中心化后的Target Variable
2. 找出和残差r相关度最高的变量Xi
3. 将Xi的系数Bi从0开始沿着LSE(只有一个变量Xi的最小二乘估计)的方向增大,直到某个新的变量Xj与残差r的相关性大于Xi时
4. Xi和Xj的系数Bi和Bj,一起沿着新的LSE(加入了新变量Xj的最小二乘估计)的方向移动,直到有新的变量被选入
5. 重复2,3,4,直到所有变量被选入,最后得到的估计就是普通线性回归的OLS
5 LAR、LASSO与OLS的混合方法
把LAR或LASSO当做一种stepwise选择变量的方法,但拟合模型系数仍用OLS
三 主成分分析与变量聚类
主成分分析用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行
您可能关注的文档
最近下载
- MSA测量系统分析-二次元.pdf VIP
- 视频处理软件:Final Cut Pro二次开发_(1).FinalCutPro二次开发概述.docx VIP
- 公司气象灾害防御方案气象灾害防御条例.doc VIP
- 《学前教育研究方法》期末考试复习题库(含答案).docx VIP
- 特种设备安全监察条例.pptx VIP
- 2023年《教育研究方法》期末考试复习题库(含答案).docx VIP
- 生产安全事故报告和调查处理条例2020.docx VIP
- 专题13 《红岩》中考真题及典型习题训练 (解析版)-2021年中考语文常考名著之阅读指导及真题训练.docx VIP
- TCECS 618-2019 压接式碳钢管道工程技术规程.pdf VIP
- 《中华人民共和国防汛条例》知识培训.pptx VIP
文档评论(0)