- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特征选择方法综述
特征选择方法综述
为什么要解决正确有效的特征选择?
在样本有限的情况下,用大量特征来设计分类器无论是从计算机开销还是从分类器性能来看都不合时宜
特征和分类器性能之间并不存在线性关系,当特征数量超过一定限度时,会导致分类器性能变坏
特征获取过程
经典特征选择定义:从N个特征集合中选出M个特征的子集,并满足条件M=N
特征提取 广义上是指一种变换,将处于高维空间的样本通过映射或变换的方式转换到底维空间,达到降维的目的
特征选择 从一组特征中去除冗余或不相关的特征来降维
二者常联合使用
要考虑特征子集的稳定性
特征获取的定义出了考虑对分类结果等的影响外,特征自身稳定性也是一个应该注意的因素,因此定义特征获取为获得尽可能小的特征子集过程,并满足不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强的特点
特征获取方法分类
特征获取要解决的问题:
1、确定选择算法 在允许的时间内,以可以忍受的代价找出最小的、最能描述类别的特征组合
2、确定评价标准 衡量特征组合是否最优,得到特征获取操作的停止条件
分两步进行特征获取,产生特征子集,然后对子集进行评价,如果满足条件,则操作完毕,否则重复前述两步知道条件满足为止
按照特征子集形成方式分类:
穷举(exhaustion)法 遍历特征空间中所有特征的组合,选取最优特征组合子集的方法。假设特征个数为N时,计算复杂度为O(2的N次方)。常用的方法有回溯方法及其变体。优点在于一定能得到最优子集,但实际情况下由于特征空间过于庞大,时间耗费和计算复杂度太大,导致实用性不强
启发法(heuristic) 一种近似算法,具有很强的主观倾向。实际应用中通过采用期望的人工机器调度规则,重复迭代产生递增的特征子集。特征个数为N时,复杂度一般小于或者等于O(N的二次方)。这种方法实现过程比较简单而且快速,在实际中应用非常广泛,如向前(向后)选择、决策树法、relief方法及其变体等,但不能保证结果最优,一般获得近似最优解得解
随机法(random) 相对较新的方法,细分为完全随机方法和概率方法;完全随机方法是指“纯”随机产生子集,概率随机是指子集的产生依照给定的概率进行。虽然计算复杂度仍为O(2的N次方),但通过设置最大迭代次数可以限制复杂度小于O(2的N次方)。常用的方法有LVF、遗传算法、模拟退火算法及其变体,这些方法需要进行参数设置,并且参数值决定是否能得到最优解。如何设置是个问题??
总得来说,只有穷举法能保障最优,但耗时并且计算复杂度很高,后两者以性能为代价换取简单、快速的实现,但不能保障最优。
先使用relief算法去除无关的特征,其次采用k均值法去除冗余特征,然后进行标准的组合特征方法,取得了较好的效果
按照特征评价标准分类
哪些特征组合有助于分类,哪些特征组合存在冗余性、部分或者完全无关
根据评价函数与分类器的关系,特征选择方法分成:
筛选器 评价函数与分类器无关
筛选器的评价函数可以分为:
距离测度 利用距离来度量样本之间相似度的一种方式。分布于不同区域的样本,样本之间距离越小越相似,样本之间距离越大,其可分性就越大。最为常用的一些重要距离测度有欧式距离、s阶Minkowski测度、chebychev距离、平方距离、非线性测量等,其中欧式可以看做是2阶的minkowski
直接从样本间的距离计算获取的距离判据虽然计算方便,直观概念清楚,但没有考虑各类的概率分布,不能确切表明各类交叠的情况。常用的概率距离测度有bhattacharyya距离、散度、chernoff概率距离一级mahalanobis距离等
信息测度
为了衡量后验概率分布的集中程度所规定的一个定量指标。从特征获取的角度来看,利用具有最小不确定性的那些特征来分类是最有利的,因此引入信息领域中作为不确定性亮度的熵函数有shannon熵、renyi熵和条件熵等
相关性测度 既可以利用相关系数,找出特征和类之间存在的相互关系;又可以利用特征之间的依赖关系,来表示特征的冗余性
一致性测度 和训练数据集关系密切,并且需要设定参数,最后得到的结果为满足给定参数的最小尺寸特征子集
封装器 采用分类器的错误概率作为评价函数
特征获取方法的选择原则
良好的特征集合应具有可辨别性好、可靠性高、独立性强、稳定性高和数量少等特点
选取原则
1、处理数据类型的能力 判断是否支持离散数据、连续数据或布尔类型数据。各种特征选择方法有其处理数据类型的范围,如分支界定法布支持布尔类型,Koller—sahamis不支持连续类型等
2、处理问题规模的能力 判断是否能处理两类问题或者多类问题,如relief不支持多类问题。可以把果类问题分为若干个两类问题,然后利用两
文档评论(0)