特征选择方法综述
控制与决策 2012.2
问题的提出
特征选择框架
基于搜索策略划分特征选择方法
基于评价准则划分特征选择方法
结论
问题的提出
特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程,是模式识别的关键问题之一。对于模式识别系统,一个好的学习样本是训练分类器的关键,样本中是否含有不相关或冗余信息直接影响着分类器的性能。
因此研究有效的特征选择方法至关重要。
特征选择算法的目的在于选择全体特征的一个较少特征集合,用以对原始数据进行有效表达按照特征关系度量划分,可分为依赖基尼指数、欧氏距离、信息熵。
特征选择框架
由于子集搜索是一个比较费时的步骤,一些学者基于相关和冗余分析, 给出了下面一种特征选择框架, 避免了子集搜索,可以高效快速地寻找最优子集。
从特征选择的基本框架看出,特征选择方法中有4个基本步骤:候选特征子集的生成(搜索策略)、评价准则、停止准则和验证方法。目前对特征选择方法的研究主要集中于搜索策略和评价准则。 因而,本文从搜索策略和评价准则两个角度对特征选择方法进行分类。
基于搜索策略划分特征选择方法
基本的搜索策略按照特征子集的形成过程,形成的特征选择方法如下:
图3基于搜索策略划分特征选择方法
其中,全局搜索如分支定界法,存在问题:
很难确定优化特征子集的数目;
满足单调性的可分性判据难以设计;
处理高维多类问题时,算法的时间复杂度较高。
随机搜索法如模拟退火、遗传算法、禁忌搜索算法等,存在问题:
具有较高的不确定性,只有当总循环次数较大时,才可能找到较好的结果。
在随机搜索策略中,可能需对一些参数进行设置,参数选择的合适与否对最终结果的好坏起着很大的作用。
启发式搜索如SFS、SBS、SFFS、SFBS等,存在问题:
1)虽然效率高,但是它以牺牲全局最优为代价。
每种搜索策略都有各自的优缺点,在实际应用过程中,根据具体环境和准则函数来寻找一个最佳的平衡点。例如,特征数较少,可采用全局最优搜索策略;若不要求全局最优,但要求计算速度快,可采用启发式策略;若需要高性能的子集,而不介意计算时间,则可采用随机搜索策略。
基于评价准则划分特征选择方法
图4基于评价准则划分特征选择方法
(一)考虑单个特征对分类的贡献,特征选择方法依据其与分类器的关系分为:Filter方法、Wrapper方法和Embedded方法3类。
封装式算法作为一种经典的特征选择算法类型采用学习算法进行特征选择,其选择过程复杂耗时,目前多与过滤式特征选择算法结合,辅助特征选择;嵌入式算法则分多步骤采用不同选择方式,算法繁琐,其代表算法是基于稀疏多项式逻辑回归模型理论的SBMLR算法等;过滤式算法不需其他学习算法,主要考察特征间计量关系,方法简单,时间复杂度相对较低,代表算法包括:基于特征权重的Relief F、Fisher、SPEC以及基于互信息的MRMR算法等。
(1)Filter方法:通过分析特征子集内部的信息来衡量特征子集的好坏,不依赖于分类器。Filter实质上属于一种无导师学习算法。
常用:基于特征权重的Relief F、Fisher、SPEC以及基于互信息的MRMR算法
Filter 特征选择方法一般使用评价准则来增强特征与类的相关性,削减特征之间的相关性。将评价函数分成4类:
1)距离度量。距离度量通常也认为是分离性、差异性或者辨识能力的度量。最为常用的一些重要距离测度:欧氏距离、S阶Minkowski测度、Chebychev 距离、平方距离等。
2)信息度量。信息度量通常采用信息增益(IG)或互信息(MI)衡量。
信息增益:有无这个特征对分类问题的影响的大小。
互信息:描述两个随机变量之间相互依存关系的强弱。
泛化的信息度量函数标准:
其中,C:类别;f:候选特征;S:已选特征;g(C,f,S):C,f,S之间的信息量;
?:调控系数;δ:惩罚因子
BIF (best individual feature)是一种最简单最直接的特征选择方法。
评价函数:
I():互信息 降序排序 前k个
优缺点:这种方法简单快速,适合于高维数据。没有考虑到所选特征间的相关性, 会带来较大的冗余。
MIFS (mutual information feature selection):互信息特征选择。使用候选特征f与单个已选特征s相关性对f进行惩罚的方法。
β:调节系数。β在[0.5,1]时,算法性能较好。
mRMR (minimal-redundancy and maximal-releva
您可能关注的文档
最近下载
- DB31T 1104-2018 城市轨道交通导向标识系统设计规范.docx VIP
- GB50461-2024:石油化工静设备安装工程施工质量验收规范.pptx VIP
- 2023年浙江省军队转业干部录用考试试题.docx VIP
- 口渴了-朋友帮你.ppt VIP
- Xikong西莱克低温机控制板SHXK814用户手册.pdf
- 爱迪生牛顿大发明攻略.doc VIP
- 重庆天齐锂电新材料有限公司新建1000吨_年高能锂电材料电池级金属锂项目环评报告.pdf VIP
- 朗文3A复习资料及垃圾分类作文8篇.doc VIP
- DB65T 3694-2015 现行哈萨克文与西里尔哈萨克文编码字符转换规则.docx VIP
- 华为云服务登录.doc VIP
原创力文档

文档评论(0)