机器学习之特征选择.pdf

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习之特征选择

特征选择 Feature Selection 重庆大学 余俊良 特征选择 • 什么是特征选择 – 特征选择( Feature Selection )也称特征子集选择 ( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使 构造出来的模型更好。 • 为什么要做特征选择 – 在机器学习的实际应用中,特征数量往往较多,其中 可能存在不相关的特征,特征之间也可能存在相互依 赖,容易导致如下的后果: • 特征个数越多,分析特征、训练模型所需的时间就越长。 • 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其 推广能力会下降。 特征选择 特征选择能剔除不相关(irrelevant)或亢余(redundant ) 的特征,从而达到减少特征个数,提高模型精确度, 减少运行时间的目的。另一方面,选取出真正相关 的特征简化了模型,使研究人员易于理解数据产生 的过程。 特征选择的一般过程 特征选择包含子集搜索与子集评价两个过程。首先 从特征全集中产生出一个特征子集,然后用评价函 数对该特征子集进行评价,评价的结果与停止准则 进行比较,若评价结果比停止准则好就停止,否则 就继续产生下一组特征子集,继续进行特征选择。 选出来的特征子集一般还要验证其有效性。 特征选择的子集产生过程 产生过程是搜索特征子空间的过程。搜索的算法分为完全搜 索(Complete),启发式搜索(Heuristic),随机搜索(Random) 3 大类 特征选择的子集产生过程 1.完全搜索 完全搜索分为穷举搜索(Exhaustive)与非穷举搜索(Non- Exhaustive)两类。 (1) 广度优先搜索( Breadth First Search ) 算法描述:广度优先遍历特征子空间。 算法评价:枚举了所有的特征组合,属于穷举搜索,时间复 n 杂度是O(2 ),实用性不高。 (2)分支限界搜索( Branch and Bound ) 算法描述:在穷举搜索的基础上加入分支限界。例如:若断 定某些分支不可能搜索出比当前找到的最优解更优的解,则 可以剪掉这些分支。 特征选择的子集产生过程 (3) 定向搜索(Beam Search ) 算法描述:首先选择N个得分最高的特征作为特征子集,将 其加入一个限制最大长度的优先队列,每次从队列中取出得 分最高的子集,然后穷举向该子集加入1个特征后产生的所 有特征集,将这些特征集加入队列。 (4) 最优优先搜索( Best First Search ) 算法描述:与定向搜索类似,唯一的不同点是不限制优先队 列的长度。 特征选择的子集产生过程 2. 启发式搜索 (1)序列前向选择( SFS , Sequential Forward Selection ) 算法描述:特征子集X从空集开始,每次选择一个特征x加入 特征子集X ,使得特征函数J( X)最优。简单说就是,每次都选 择一个使得评价函数的取值达到最优的特征加入,其实就是 一种简单的贪心算法。 算法评价:缺点是只能加入特征而不能去除特征。例如:特 征A完全依赖于特征B与C,可以认为如果加入了特征B与C则A 就是多余的。假设序列前向选择算法首先将A加入特征集, 然后又将B与C加入,那么特征子集中就包含了多余的特征A 。 特征选择的子集产生过程 (2)序列后向选择( SBS , Sequential Backward Selection ) 算法描述:从特征全集O开始,每次从特征集O 中剔除一个特 征x ,使得剔除特征x后评价函数值达到最优。 算法评价:序列后向选择与序列前向选择正好相反,它的缺 点是特征只能去除不能加入。 另外,SFS与SBS都属于贪心算法,容易陷入局部最优值。 特征选择的子集产生过程 (3) 双向搜索( BDS , Bidirectiona

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档