- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八讲 特征提取和特征选择
基本概念
特征的生成
原始特征的采集和转换
通过对原始特征的信号采集,获得样本的原始表达数据,
从原始数据中选择或计算出对分类任务有用的原始特征,并转换成可用的形式
原始数据:
像素点RGB值矩阵
可用的原始特征:
轮廓特征
颜色特征
纹理特征
数学特征
有效特征的生成
目的:
降低特征维数,减少信息冗余
提升特征的有效性
方法:
特征提取:提高特征对类别的分辨能力
特征选择:寻找对分类最重要的特征
特征提取
通过某种变换,将原始特征从高维空间映射到低维空间。
A:X→Y; A为特征提取器,通常是某种正交变换。
最优特征提取:J(A*)=max J(A), J是准则函数
特征选择
从一组特征中挑选出一些最有效的特征,以达到降低特征空间维数的目的。
原始特征集合S中包含D个特征,目标特征集合F中包含d个特征;
最优特征选择:J(F*)=max J(F), J是准则函数
准则函数的选取
准则函数的选取原则
分类正确率是最佳的特征提取和特征选择准则函数,但难以计算。
实用的类别可分性准则函数应满足以下要求:
与分类正确率有单调递增关系
当特征独立时具有可加性:
具有标量测度特性:
对特征具单调性:
类内类间距离
例:
对于随机性统计分类,类内类间距离和分类错误率不相关
b.类内类间距离的分解
Jw称为类内平均距离,Jb称为是类间平均距离
从类别可分性的要求来看,希望Jw 尽可能小, Jb 尽可能大
概率距离
类间的概率距离可用分布函数之间的距离来度量
完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
使用类内类间距离进行特征提取
准则函数的构造:
类内类间距离为:Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离
通常给定一个训练集后,Jd是固定的,
在特征提取时,需要加大Jb,减小Jw,来获得满意的分类效果。
Sw和Sb是对称矩阵,迹和行列式值在正交变换下具有不变性,所以常构造以下特征提取准则函数:
特征提取算法:
以准则函数J2为例:
保留了原特征向量中方差最大的特征维度成分
特征选择算法
独立算法
分别计算D个特征单独使用时的准则函数,选取最优的前d个特征作为最优特征。
除极特殊情况(各特征相互独立,准则函数满足可加性)外,所得特征组合均不一定是最优特征组合。
穷举算法
从D个特征中选择所有可能的d个特征组合,计算其准则函数,寻找其最优值,从而得到最佳特征组合。
计算量太大
若D=100,d=10,则计算次数为:
每秒计算一次,需要288505157607分钟,4808419293小时,200350804天,548906年。
分支定界算法
(1)算法原理:
从原特征数D开始依次减少特征数,直至到达所需的特征数d;
将过程中所有可能的组合情况组合成一棵搜索树;特征数少的组合作为特征数多的组合的子节点;
按特定路线遍历整个搜索树,计算所遇到的每一个节点的准则函数;
如遇到某个节点的准则函数值比已得到的特征数更少的节点的准则函数值还小,则放弃其下所有节点的计算;
(2)搜索树的构造:
根节点为0级,包含D个特征;
每一级舍弃1个特征;
下一级在上一级基础上继续舍弃特征;
整个搜索树共有D-d级;
为避免组合重复,从左至右每个子树包含的分支依次减少;
例:原始特征={x1,x2,x3,x4}, D=4,d=2
(3)搜索路由:
从根节点开始,沿最右边路径下行,计算每个节点的J值,把第一个遇到的叶节点的J值设为边界初值B;沿原路径回溯,遇到第一个分叉点后沿新路径下行,计算遇到的每个节点的J值;
如遇到某节点的J值小于B,则放弃其下的所有分支的计算,向上回溯;
如遇到下一个叶节点的J值大于B,则更新B为新的叶节点的J值。
遍历整个搜索树,最终得到的B值对应的叶节点,就是最优特征组合。
(4)算法特点:
能否得到最优解,取决于准则函数J对特征数量是否单调
构造单调的准则函数时要考虑特征间的相关性
对于独立特征,如果J0,又满足可加性,则单调性成立
利用准则函数对特征数量的单调性,在穷举算法时可跳过大量计算,是最优算法。
计算次数可能比穷举法多,也可能比穷举法少
遍历搜索树可有多种方法
算法一:从右至左依次遍历
算法二:剪枝法
实例:
有一个分类问题,原始特征空间包含5个特征,试选择2个最重要的特征来降低特征空间的维数。
各特征间是相互独立的,并且都有一个独立的重要性指数,其值
文档评论(0)