- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习策略中的特征选择(如LASSO)
一、特征选择:机器学习从“粗放”到“精准”的必经之路
在机器学习的发展历程中,“数据”始终是核心要素——但并非“更多的数据”就意味着“更好的模型”。当我们面对日益复杂的高维数据(比如基因表达谱、文本向量、图像像素)时,如何从成千上万的特征中筛选出“真正有价值的信息”,成为决定模型性能的关键。特征选择,正是解决这一问题的核心策略;而以LASSO为代表的嵌入式方法,则将特征选择从“辅助步骤”升级为“模型训练的核心环节”。
(一)“维度诅咒”:高维数据下的模型困境
想象这样一个场景:你要预测某个人的信用评分,可用的特征包括年龄、收入、信用卡额度、还款逾期次数、网购频率、社交软件好友数量……甚至还有“最近一个月打车的次数”“朋友圈点赞的频率”。当特征数量从10个增加到1000个时,模型会面临三个致命问题:
首先是过拟合风险。过多的特征会让模型“记住”训练数据中的噪声——比如某个用户的信用评分低只是因为“最近打车次数多”(实际上这两者毫无关联),但模型会错误地将“打车次数”作为重要特征,导致在新数据上的预测效果急剧下降。
其次是计算效率低下。处理1000个特征需要的内存和时间,是处理10个特征的数百倍甚至数千倍——对于实时推荐系统、在线fraud检测等需要快速响应的场景来说,这几乎是不可接受的。
最后是解释性丧失。当特征数量达到数千个时,你根本无法回答“模型为什么给这个用户低信用评分”——是因为“收入低”?还是“网购频率高”?抑或是“朋友圈点赞少”?这种“黑箱模型”不仅无法说服业务方,甚至可能违反监管要求(比如欧盟的《通用数据保护条例》要求模型决策必须可解释)。
这种因特征维度过高而导致的性能下降,被称为“维度诅咒”。而特征选择,正是破解这一诅咒的“钥匙”。
(二)特征选择的本质:筛选“有效信息”的艺术
特征选择不是“随机删除特征”,而是系统性地识别“有效特征”——那些与目标变量(比如信用评分、房价、疾病诊断)密切相关、能提升模型性能的特征。有效特征需要满足三个条件:
相关性:特征与目标变量有统计关联(比如“还款逾期次数”越多,信用评分越低);
独立性:特征之间没有过高的冗余(比如“收入”和“信用卡额度”高度相关,保留其中一个即可);
稳定性:特征在不同数据集上的表现一致(比如“还款逾期次数”在训练集和测试集上都能预测信用评分)。
举个例子,在房价预测中,“房屋面积”“距离地铁的距离”“学区等级”是有效特征;“小区门口便利店的数量”是无关特征(与房价无关联);“房屋面积”和“套内面积”是冗余特征(两者高度相关)。特征选择的目标,就是把“有效特征”从海量原始特征中挑出来,让模型只关注“真正有用的信息”。
(三)传统特征选择方法的局限:为何需要LASSO?
在LASSO出现之前,传统特征选择方法主要分为三类,但都存在明显缺陷:
过滤式方法(比如相关系数、卡方检验):先计算每个特征与目标变量的相关性,选前k个特征。但它忽略特征间的相互作用——比如“房屋面积”和“房间数量”单独看相关性都不高,但结合起来能很好预测房价,过滤式方法会错过这种组合信息。
包裹式方法(比如递归特征消除):用模型(比如随机森林)反复训练,每次删除最不重要的特征。但它计算量极大——1000个特征可能需要训练100次模型,对于高维数据来说根本不可行。
早期嵌入式方法(比如岭回归):将特征选择整合到模型训练中,但岭回归用的是L2正则化(系数的平方和),只会让系数“变小”而不会“变0”——无法真正剔除特征。
正是这些局限,让LASSO成为特征选择领域的“革命性方法”——它既解决了过滤式的“孤立看特征”问题,又避免了包裹式的“重复训练”问题,还实现了岭回归无法做到的“特征剔除”。
二、LASSO:从正则化到特征选择的突破性创新
LASSO的全称是“最小绝对收缩和选择算子”(LeastAbsoluteShrinkageandSelectionOperator),它的核心思想很简单:在模型训练时,通过正则化让不重要的特征系数直接变为0。这种“自动剔除”的特性,让LASSO成为高维数据下特征选择的“首选工具”。
(一)LASSO的核心逻辑:用L1正则化实现“稀疏性”
传统线性回归的目标是“让预测值和真实值的差最小”(比如均方误差)。而LASSO在此基础上,额外加了一个“惩罚项”——所有特征系数的绝对值之和乘以一个“惩罚系数”。比如,假设你用LASSO预测房价,损失函数会变成:“预测房价与真实房价的差的平方和”+“惩罚系数×(房屋面积系数的绝对值+距离地铁系数的绝对值+……)”。
为什么加这个惩罚项?因为它会“压缩”特征系数:当惩罚系数足够大时,不重要特征的系数会被“压到0”——比如“小区便利店数量”这个特征,因为和
您可能关注的文档
- 2025年一级建造师考试题库(附答案和详细解析)(1218).docx
- 2025年专业调音师资格考试题库(附答案和详细解析)(1225).docx
- 2025年健康管理师考试题库(附答案和详细解析)(1220).docx
- 2025年工业互联网工程师考试题库(附答案和详细解析)(1224).docx
- 2025年数据库系统工程师考试题库(附答案和详细解析)(1225).docx
- 2025年机器人操作工程师考试题库(附答案和详细解析)(1222).docx
- 2025年注册统计师考试题库(附答案和详细解析)(1221).docx
- 2025年证券从业资格考试考试题库(附答案和详细解析)(1219).docx
- 31岁女子陪妈妈体检查出自已患癌.docx
- AI时代,软件成本真能降90%?.docx
- 内蒙古自治区鄂尔多斯市第一中学2025-2026学年第一学期高一年级学业诊断检测12月月考语文试卷含答案.pdf
- 四川省2025-2026学年高三上学期12月阶段性自测地理试卷含答案.pdf
- 林区蓄水池防火配套建设指南.ppt
- 四川省2025-2026学年高三上学期12月阶段性自测历史试卷含答案.pdf
- 云南省2025-2026学年高三上学期12月阶段性自测地理试卷含答案.pdf
- 火灾区域生态修复实施指南.ppt
- 云南省2025-2026学年高三上学期12月阶段性自测历史试卷含答案.pdf
- 云南省2025-2026学年高三上学期12月阶段性自测日语试卷含答案.pdf
- 2025年水产养殖科技合作协议(鱼苗).docx
- 2025年水产养殖苗种繁育合作协议协议.docx
最近下载
- 国开形成性考核20254《公共关系学》形考任务(1-3)试题及答案.pdf VIP
- 加油站应急疏散演练.pptx VIP
- SH2112F控制器使用说明书-盛华南京消防电子.pdf
- 2024公安联考行测题库.pdf
- 稀土离子能级和跃迁概要.ppt VIP
- 数字媒体应用技术专业专业建设规划(2018-20.doc VIP
- 科学道德与学术规范网课(江师大、长理)期末考试答案.docx VIP
- 贺银成儿科学考点速记.doc VIP
- 2024CPXY-J435 装配式FXPC一体板建筑构造.docx VIP
- 渝17J19 泡沫陶瓷保温装饰板建筑外墙外保温系统建筑构造 DJBT 50-105.docx VIP
原创力文档


文档评论(0)