特征选择常用算法综述.docVIP

下载本文档

6
0
约4.87千字
约 16页
2017-08-21 发布于云南
举报
版权申诉

特征选择常用算法综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

特征选择常用算法综述 Posted on 2011-01-02 14:40 苍梧阅读(11252) 评论(11) 编辑收藏 1 综述 (1) 特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。 ? (2) 为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果： !--[if !supportLists]--?? !--[endif]--特征个数越多，分析特征、训练模型所需的时间就越长。 !--[if !supportLists]--?? !--[endif]--特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。 ? 特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。 ? ?2 特征选择过程 2.1 特征选择的一般过程 ? 特征选择的一般过程可用图1表示。首先从特征全集中产生出一个特征子集，然后用评价函数对该特征子集进行评价，评价的结果与停止准则进行比较，若评价结果比停止准则好就停止，否则就继续产生下一组特征子集，继续进行特征选择。选出来的特征子集一般还要验证其有效性。综上所述，特征选择过程一般包括产生过程，评价函数，停止准则，验证过程，这4个部分。 ? 　　(1) ( Generation Procedure ) 　　2.2小节展开介绍。 ? 　　(2) ( Evaluation Function ) 　　2.3小节展开介绍。 ? 　　(3) ( Stopping Criterion ) 　　 ? 　　(4) ( Validation Procedure ) 　　图1. 特征选择的过程 ( M. Dash and H. Liu 1997 ) 2.2 产生过程产生过程是搜索特征子空间的过程。搜索的算法分为完全搜索(Complete)，启发式搜索(Heuristic)，随机搜索(Random) 3大类，如图2所示。 ? 图2. 产生过程算法分类 ( M. Dash and H. Liu 1997 ) 下面对常见的搜索算法进行简单介绍。 2.2.1完全搜索　　完全搜索分为穷举搜索(Exhaustive)与非穷举搜索(Non-Exhaustive)两类。　　(1) ( Breadth First Search ) 　　　　算法评价：枚举了所有的特征组合，属于穷举搜索，时间复杂度是O(2n)，实用性不高。　　(2)( Branch and Bound ) 　　　　(3) (Beam Search ) 　　N个得分最高的特征作为特征子集，将其加入一个限制最大长度的优先队列，每次从队列中取出得分最高的子集，然后穷举向该子集加入1个特征后产生的所有特征集，将这些特征集加入队列。　　(4) ( Best First Search ) 　　 2.2.2 启发式搜索　　(1)( SFS , Sequential Forward Selection ) 　　算法描述：特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J( X)最优。简单说就是，每次都选择一个使得评价函数的取值达到最优的特征加入，其实就是一种简单的贪心算法。　　算法评价：缺点是只能加入特征而不能去除特征。例如：特征A完全依赖于特征B与C，可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集，然后又将B与C加入，那么特征子集中就包含了多余的特征A。　　(2)( SBS , Sequential Backward Selection ) 　　算法描述：从特征全集O开始，每次从特征集O中剔除一个特征x，使得剔除特征x后评价函数值达到最优。　　算法评价：序列后向选择与序列前向选择正好相反，它的缺点是特征只能去除不能加入。　　另外，SFS与SBS都属于贪心算法，容易陷入局部最优值。　　(3) ( BDS , Bidirectional Search ) 　　算法描述：使用序列前向选择(SFS)从空集开始，同时使用序列后向选择(SBS)从全集开始搜索，当两者搜索到一个相同的特征子集C时停止搜索。　　双向搜索的出发点是??。如下图所示，O点