通过LASSO回归压缩和选择
Robert·Tibshirani
加拿大多伦多大学
【1994年1月收到,1995年1月修订】
【摘要】
本文提出一个线性模型估计的新方法。LASSO最小化残差平方和使得系数绝对值之和小于一个常数。由于此约束的性质倾向于产生一些为0的系数,从而给出了解释模型。我们的仿真研究表明,LASSO具有一些子集选择和岭回归的有利特性。它产生了例如子集选择的解释模型并展示了岭回归的稳定性。在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系。LASSO思想是相当广泛的并可用于各种统计模型:本文简要介绍了广义的回归模型和基于树的模型的扩展。
关键词:二次规划;回归;压缩;子集选择
1.引言
考虑通常的回归情况:已知数据其中和分别是观察数据的第个回归因子和响应量。通过最小化残差平方的误差得到普通最小二乘法(OLS)估计。数据分析师经常不满意OLS估计值有两个原因。第一是预测精度:OLS估计经常是低偏压高方差;预测精度有时可以通过压缩或设置一些系数为0进行改善。通过这样,牺牲一些偏压,减少预测值的方差,从而提高可以总体的预测精度。第二个原因是解释。拥有大量的经常想要决定更小子集的预测值,我们表现出强烈的影响。
改进OLS估计的子集选择和岭回归这两种标准标准技术都有缺点。子集选择提供可解释模型,但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其
原创力文档

文档评论(0)