- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特征选择
Feature Selection
重庆大学 余俊良
特征选择
• 什么是特征选择
– 特征选择( Feature Selection )也称特征子集选择
( Feature Subset Selection , FSS ) ,或属性选择( Attribute
Selection ) ,是指从全部特征中选取一个特征子集,使
构造出来的模型更好。
• 为什么要做特征选择
– 在机器学习的实际应用中,特征数量往往较多,其中
可能存在不相关的特征,特征之间也可能存在相互依
赖,容易导致如下的后果:
• 特征个数越多,分析特征、训练模型所需的时间就越长。
• 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其
推广能力会下降。
特征选择
特征选择能剔除不相关(irrelevant)或亢余(redundant )
的特征,从而达到减少特征个数,提高模型精确度,
减少运行时间的目的。另一方面,选取出真正相关
的特征简化了模型,使研究人员易于理解数据产生
的过程。
特征选择的一般过程
特征选择包含子集搜索与子集评价两个过程。首先
从特征全集中产生出一个特征子集,然后用评价函
数对该特征子集进行评价,评价的结果与停止准则
进行比较,若评价结果比停止准则好就停止,否则
就继续产生下一组特征子集,继续进行特征选择。
选出来的特征子集一般还要验证其有效性。
特征选择的子集产生过程
产生过程是搜索特征子空间的过程。搜索的算法分为完全搜
索(Complete),启发式搜索(Heuristic),随机搜索(Random) 3
大类
特征选择的子集产生过程
1.完全搜索
完全搜索分为穷举搜索(Exhaustive)与非穷举搜索(Non-
Exhaustive)两类。
(1) 广度优先搜索( Breadth First Search )
算法描述:广度优先遍历特征子空间。
算法评价:枚举了所有的特征组合,属于穷举搜索,时间复
n
杂度是O(2 ),实用性不高。
(2)分支限界搜索( Branch and Bound )
算法描述:在穷举搜索的基础上加入分支限界。例如:若断
定某些分支不可能搜索出比当前找到的最优解更优的解,则
可以剪掉这些分支。
特征选择的子集产生过程
(3) 定向搜索(Beam Search )
算法描述:首先选择N个得分最高的特征作为特征子集,将
其加入一个限制最大长度的优先队列,每次从队列中取出得
分最高的子集,然后穷举向该子集加入1个特征后产生的所
有特征集,将这些特征集加入队列。
(4) 最优优先搜索( Best First Search )
算法描述:与定向搜索类似,唯一的不同点是不限制优先队
列的长度。
特征选择的子集产生过程
2. 启发式搜索
(1)序列前向选择( SFS , Sequential Forward Selection )
算法描述:特征子集X从空集开始,每次选择一个特征x加入
特征子集X ,使得特征函数J( X)最优。简单说就是,每次都选
择一个使得评价函数的取值达到最优的特征加入,其实就是
一种简单的贪心算法。
算法评价:缺点是只能加入特征而不能去除特征。例如:特
征A完全依赖于特征B与C,可以认为如果加入了特征B与C则A
就是多余的。假设序列前向选择算法首先将A加入特征集,
然后又将B与C加入,那么特征子集中就包含了多余的特征A 。
特征选择的子集产生过程
(2)序列后向选择( SBS , Sequential Backward Selection )
算法描述:从特征全集O开始,每次从特征集O 中剔除一个特
征x ,使得剔除特征x后评价函数值达到最优。
算法评价:序列后向选择与序列前向选择正好相反,它的缺
点是特征只能去除不能加入。
另外,SFS与SBS都属于贪心算法,容易陷入局部最优值。
特征选择的子集产生过程
(3) 双向搜索( BDS , Bidirectiona
您可能关注的文档
最近下载
- 2024-2025学年深圳市初三中考适应性考试历史(含答案或解析).pdf
- 200L三维运动混合机的仿真分析与设计.docx
- 21.《大自然的声音》 说课课件(共37张PPT).pptx VIP
- 精神分裂症等五个病种临床路径及表单(2025版) .pdf VIP
- 800个六级高频词及重点词汇.docx VIP
- 《中国地震烈度表(2016版).》.pdf
- 函数与导数练习题高三.pdf VIP
- 专题15 难点探究专题:线段上的动点问题压轴题三种模型全攻略(解析版).docx VIP
- ISO149712007(中文)医疗器械风险管理.pdf
- 人教版小学六年级上册数学第五单元测试卷4套含答案.docx VIP
原创力文档


文档评论(0)