- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
LASSO方法的总结与思考
统计学习中如果一味提高对训练数据的拟合能力,模型复杂度也会相应提高,这种情况下训练出的方程总是能很好的拟合训练数据,得到的代价函数可能非常接近于0,但这样的曲线千方百计的去拟合训练数据,通常会导致它无法泛化到新的数据样本中,这类情况被叫做过拟合(overfitting)。例如在生物医学领域中,数据的维度很高,但由于收集数据需要实验代价高昂,可用的训练数据却相当少,很容易发生过拟合问题[3]。
对于过拟合,可以通过人工筛选去除某些变量,留下关键的变量,但是在剔除变量的时候,就舍弃了一部分信息,可能会对最终的预测结果造成影响。另一种方法是正则化,在经验风险的基础上加一个正则化项,降低某些参数的影响,事实上,这些参数的值越小,对应更加简单的函数,就不易发生过拟合的问题。常见的正则化方法有岭回归和LASSO回归,它们间的区别在于,岭回归是一个系数收缩的连续的过程,并且因此更加稳定,但任何系数都不为0,因此不能使模型降维。LASSO(Least absolute shrinkage and selection operator)算法[1]于1996年由Robert Tibshirani首次提出,这种方法在保留了岭回归的优点的同时,可以将某些参数变为0,使模型更简洁[2]。
对最简单的线性回归模型:
(1)
然后如式(2)按照经验风险的最小化策略,求解多项式系数:
(2)
其中是输入的观测值,是输出的观测值。该问题具有解析解:
(3)
如果变量个数大于数据点的个数的话,矩阵将会不是满秩的,会有无穷多个解。如果从所有可行解里随机选一个的话,很可能并不是真正好的解,发生过拟合。
岭回归是在经验风险上再添加一个正则化项:
(4)
此时问题的解为:
(5)
从数学上可证明是可逆的,故岭回归可以避免过拟合。不过,岭回归并不具有产生稀疏解的能力,从计算量上来说并没有得到改观。
对于LASSO回归,用正则化项代替,则有:
(6)
为了便于描述两种正则化方法的几何意义,考虑两维的情况,可在平面上画出目标函数与约束区域图像如图1所示:
图1 LASSO和岭回归的估计图
可以看到,LASSO与岭回归图像的不同就在于LASSO中和每个坐标轴相交的地方都有“角”出现,而目标函数的测地线除非位置摆得非常好,大部分时候都会在角的地方相交,角的位置为产生稀疏性,例如图中的相交点就有。
扩展到三维空间内,会有一条棱和目标函数相交,所以LASSO能够产生稀疏性,对变量空间进行压缩。
参考文献
[1] R. Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58(1):267–288, 1996
[2] Friedman J, Hastie T, Tibshirani R. Regularization Paths for Generalized Linear Models via Coordinate Descent[J]. Journal of Statistical Software, 2010, 33(01):1-22.
[3] 张靖, 胡学钢, 张玉红,等. K-split Lasso:有效的肿瘤特征基因选择方法[J]. 计算机科学与探索, 2012, 6(12):1136-1143.
您可能关注的文档
最近下载
- 2025最新电力建设工程现行管理文件及技术标准名录.pdf VIP
- 工艺流程高考题高考真题分析及备考建议及策略及说题比赛.ppt VIP
- 安徽大学《分子生物学》2022-2023学年第一学期期末试卷.doc VIP
- 超超临界锅炉用HR3C耐热钢的研究进展.pdf VIP
- 12J926无障碍设计(正版高清).docx VIP
- 中医重点专科建设验收评估总结汇报材料.pdf VIP
- 异性交往:如何把握边界感 课件--2023-2024学年高一下学期心理健康教育主题班会.pptx VIP
- 2020高考试题研究(工艺流程高考真题)备考建议及说题比赛课件.pptx VIP
- 乳品加工安全生产管理制度范本.docx VIP
- “非遗”之首——昆曲经典艺术欣赏知到智慧树期末考试答案题库2025年北京大学、南京大学、台湾大学、上海戏剧学院等 跨校共建.docx VIP
原创力文档


文档评论(0)