机器学习策略中的特征选择（如LASSO）.docxVIP

下载本文档

0
0
约5.55千字
约 11页
2025-12-31 发布于上海
举报
版权申诉

机器学习策略中的特征选择（如LASSO）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习策略中的特征选择（如LASSO）

一、特征选择：机器学习从“粗放”到“精准”的必经之路

在机器学习的发展历程中，“数据”始终是核心要素——但并非“更多的数据”就意味着“更好的模型”。当我们面对日益复杂的高维数据（比如基因表达谱、文本向量、图像像素）时，如何从成千上万的特征中筛选出“真正有价值的信息”，成为决定模型性能的关键。特征选择，正是解决这一问题的核心策略；而以LASSO为代表的嵌入式方法，则将特征选择从“辅助步骤”升级为“模型训练的核心环节”。

（一）“维度诅咒”：高维数据下的模型困境

想象这样一个场景：你要预测某个人的信用评分，可用的特征包括年龄、收入、信用卡额度、还款逾期次数、网购频率、社交软件好友数量……甚至还有“最近一个月打车的次数”“朋友圈点赞的频率”。当特征数量从10个增加到1000个时，模型会面临三个致命问题：

首先是过拟合风险。过多的特征会让模型“记住”训练数据中的噪声——比如某个用户的信用评分低只是因为“最近打车次数多”（实际上这两者毫无关联），但模型会错误地将“打车次数”作为重要特征，导致在新数据上的预测效果急剧下降。

其次是计算效率低下。处理1000个特征需要的内存和时间，是处理10个特征的数百倍甚至数千倍——对于实时推荐系统、在线fraud检测等需要快速响应的场景来说，这几乎是不可接受的。

最后是解释性丧失。当特征数量达到数千个时，你根本无法回答“模型为什么给这个用户低信用评分”——是因为“收入低”？还是“网购频率高”？抑或是“朋友圈点赞少”？这种“黑箱模型”不仅无法说服业务方，甚至可能违反监管要求（比如欧盟的《通用数据保护条例》要求模型决策必须可解释）。

这种因特征维度过高而导致的性能下降，被称为“维度诅咒”。而特征选择，正是破解这一诅咒的“钥匙”。

（二）特征选择的本质：筛选“有效信息”的艺术

特征选择不是“随机删除特征”，而是系统性地识别“有效特征”——那些与目标变量（比如信用评分、房价、疾病诊断）密切相关、能提升模型性能的特征。有效特征需要满足三个条件：

相关性：特征与目标变量有统计关联（比如“还款逾期次数”越多，信用评分越低）；

独立性：特征之间没有过高的冗余（比如“收入”和“信用卡额度”高度相关，保留其中一个即可）；

稳定性：特征在不同数据集上的表现一致（比如“还款逾期次数”在训练集和测试集上都能预测信用评分）。

举个例子，在房价预测中，“房屋面积”“距离地铁的距离”“学区等级”是有效特征；“小区门口便利店的数量”是无关特征（与房价无关联）；“房屋面积”和“套内面积”是冗余特征（两者高度相关）。特征选择的目标，就是把“有效特征”从海量原始特征中挑出来，让模型只关注“真正有用的信息”。

（三）传统特征选择方法的局限：为何需要LASSO？

在LASSO出现之前，传统特征选择方法主要分为三类，但都存在明显缺陷：

过滤式方法（比如相关系数、卡方检验）：先计算每个特征与目标变量的相关性，选前k个特征。但它忽略特征间的相互作用——比如“房屋面积”和“房间数量”单独看相关性都不高，但结合起来能很好预测房价，过滤式方法会错过这种组合信息。

包裹式方法（比如递归特征消除）：用模型（比如随机森林）反复训练，每次删除最不重要的特征。但它计算量极大——1000个特征可能需要训练100次模型，对于高维数据来说根本不可行。

早期嵌入式方法（比如岭回归）：将特征选择整合到模型训练中，但岭回归用的是L2正则化（系数的平方和），只会让系数“变小”而不会“变0”——无法真正剔除特征。

正是这些局限，让LASSO成为特征选择领域的“革命性方法”——它既解决了过滤式的“孤立看特征”问题，又避免了包裹式的“重复训练”问题，还实现了岭回归无法做到的“特征剔除”。

二、LASSO：从正则化到特征选择的突破性创新

LASSO的全称是“最小绝对收缩和选择算子”（LeastAbsoluteShrinkageandSelectionOperator），它的核心思想很简单：在模型训练时，通过正则化让不重要的特征系数直接变为0。这种“自动剔除”的特性，让LASSO成为高维数据下特征选择的“首选工具”。

（一）LASSO的核心逻辑：用L1正则化实现“稀疏性”

传统线性回归的目标是“让预测值和真实值的差最小”（比如均方误差）。而LASSO在此基础上，额外加了一个“惩罚项”——所有特征系数的绝对值之和乘以一个“惩罚系数”。比如，假设你用LASSO预测房价，损失函数会变成：“预测房价与真实房价的差的平方和”+“惩罚系数×（房屋面积系数的绝对值+距离地铁系数的绝对值+……）”。

为什么加这个惩罚项？因为它会“压缩”特征系数：当惩罚系数足够大时，不重要特征的系数会被“压到0”——比如“小区便利店数量”这个特征，因为和

您可能关注的文档

文档评论（0）

gyf70 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习策略中的特征选择（如LASSO）.docxVIP