- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别特征选择与提取
教师评价 优+ 良+ 中+ 及格+ 不及格+ 教师签名 日期 2014. 优 良 中 及格 不及格 优- 良- 中- 及格- 不及格-
模式识别特征选择与提取
中国矿业大学 计算机科学与技术学院 电子信息科学系
班级:信科11-1班,学号姓名:褚钰博
联系方法(QQ或手机):390345438,e-mail:390345438@
日期:2014 年 06月 10日
摘要
实际问题中常常需要维数约简,如人脸识别、图像检索等。而特征选择和特征提取是两种最常用的维数约简方法。特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。
本文是对主成分分析和线性判别分析。
关键词:特征选择,特征提取,主成分分析,线性判别分析
1.引言
模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。而分类方法与分类器设计,都是在d维特征空间已经确定的前提下进行的。因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。要讨论的问题就是特征空间如何设计的问题。维特征种选择出个特征共有中选法,其中哪一种方案最佳,则需要有一个原则来进行指导。
我们进行特征选择和特征提取的最终目的还是要进行识别,因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性判据。用这样的可分性判据可以度量当前特征维数下类别样本的可分性。可分性越大,对识别越有利,可分性越小,对识别越不利。
人们对的特征的可分性判据研究很多下面几种常用的判据,我们需要根据实际问题,从中选择出一种。
一般来说,我们希望可分性判据满足以下几个条件:
与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小;
当特征独立时有可加性,即:
是第类和第类的可分性判据,越大,两类的可分程度越大,为维特征;
应具有某种距离的特点:
,当时;
,当时;
;
单调性,加入新的特征后,判据不减小:
。
但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件,只能满足一个或几个条件。
特征提取又称为特征变换,最常采用的特征变换是线性变换,即若是D维原始特征,变换后的d维新特征为 , 其中,W是维矩阵,称作变换阵。特征提取就是根据训练样本求适当的W,使得某种特征变换准则最优。
主成分分析方法的出发点是从一组特征中计算出一组按重要性从大到小排序的新特征,他们是原有特征的线性组合,并且相互之间是不相关的。
记为p个原始特征,设新特征,i=1,,p是这些原始特征的线性组合
,
为了统一的尺度,要求线性组合的模为1,即
,
写成矩阵形式是 ,
其中,是由新特征组成的向量,A是特征变换矩阵。要求解的是最优的正交变换A,它使新特征的方差达到极值。
3.理论证明或说明
特征选择的基本框图为:
原始特征集 子集
否
是
一个典型的特征选择算法通常包括四个人基本步骤:
子集产生,这是一个搜索过程,通过一定的搜索策略产生候选的特征子集。
子集评价,每一个候选的特征子集都根据一定的评价准则得到,并与先前的最优特征子集进行比较。
终止条件,算法结束所需要满足的条件,它与子集的产生过程和评价准则的选用有关。
结果验证,就是根据一定的先验知识或通过合成现实数据集的测试来证明所选择的特征子集的性能。
基于特征提取主成分分析变换矩阵的一般过程:
训练数据全集
生成变换矩阵
4.实现方法或步骤流程
特征选择顺序前进法
每次从未入选的特征中选择一个特征,使得它与已入选的特征组合到一起所得到的可分性判据最大,直到特征数增加到为止。用表示在第步时的特征集合,搜索算法如下:
开始时,,从个特征中选择一个最大的特征,加入已选特征集,;
在第步,中包含已经选择的个特征,对未入选的个特征计算,,其中,并且按照由大到小排序,将可分性判据最大的特征加入,;
直到所选的特征数等于为止。
特征抽取的方法—基于离散K-L变换(DKLT)的特征抽取:
设原始特征为为矢量,均值矢量,相关矩阵,
文档评论(0)