第四章特征提取和选择_第一次课.pptVIP

下载本文档

13
0
约5.62千字
约 56页
2017-08-21 发布于重庆
举报
版权申诉

第四章特征提取和选择_第一次课.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第四章特征提取和选择_第一次课.ppt

在第二、三章所讨论的分类方法与分类器设计中，都是在d维特征空间已经确定的前提下进行的。因此讨论的分类器设计问题是一个选择什么准则、使用什么方法，将已确定的d维特征空间划分成决策域的问题。对分类器设计方法的研究固然重要，但如何确定合适的特征空间是设计模式识别系统另一个十分重要、甚至更为关键的问题。如果所选用的特征空间能使同类物体分布具有紧致性，即各类样本能分布在该特征空间中彼此分割开的区域内，这就为成功设计分类器提供良好的基础；如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。这一章要讨论的问题就是特征空间如何设计和优化的问题。对特征空间的改造和优化，主要的目的是降维，即把维数高的特征空间改成维数低的特征空间，提高其某方面的性能，降维主要有两种途径。一种是删选掉一些次要的特征，问题在于如何确定特征的重要性，以及如何删选。另一种方法是使用变换的手段，在这里主要限定在线性变换的方法上，通过变换来实现降维。本章主要内容 4.1 基本概念 4.2 类的可分性判据 4.3 基于可分性判据的特征提取 4.4 主分量分析（PCA） 4.5 特征选择方法学习目的 1. 了解特征空间的选择在设计模式识别系统、解决模式识别具体问题中是至关重要的。 2. 掌握对特征空间进行优化的两种基本方法，一是对原特征空间进行删选，即特征选择；另一种是通过变换改造原特征空间，即特征提取。 3. 重点掌握运用线性变换对原特征空间优化的的基本方法，进一步深入理解模式识别处理问题的基本方法——确定准则函数，并通过计算进行优化。课前思考题 1．什么叫特征空间？如果我们用颜色、尺寸、重量来衡量水果，构造的特征空间是几维空间？ 2．如果用颜色、尺寸与重量组成的特征空间来区分红苹果与梨，你认为这三种度量中的哪种最有效？为什么？能否想像这两种水果在这个三维空间的分布？如果用这个特征空间来区分红苹果与樱桃，你想像一下这两类水果在特征空间如何分布？能否对这两种情况设计更经济有效的特征空间？ 3．如果两类物体在一个二维特征空间如下图分布,能否用删除其中任一维来优化特征空间？有没有什么方法能得到一个对分类很有利的一维特征空间？对原有特征空间进行处理与加工，使之较原特征空间优化。优化是为了降维，要求既降低特征的维数，又能提高分类器的性能。优化后的特征空间应该更有利于后续的分类计算。特征形成：在设计一个具体的模式识别系统时,往往是先接触一些训练样本, 研究模式类所包含的特征信息,并给出相应的表述方法。这一阶段的主要目标是获取尽可能多的表述特征。在这些特征中,有些可能满足类内稳定、类间离散的要求,有的则可能不满足, 不能作为分类的依据。根据样例分析得到一组表述观察对象的特征值,而不论特征是否实用,称这一步为特征形成,得到的特征称为原始特征。对原始特征集进行处理, 去除对分类作用不大的特征, 从而可以在保证性能的条件下, 通过降低特征空间的维数来减少分类方法的复杂度。 4.2 类的可分性判据特征选择与特征提取的任务是降低特征空间的维数，求出一组对分类最有效的特征（所谓最有效是指在特征维数减少到同等水平时，其分类性能最佳）。高维特征变为低维特征的方法很多，究竟哪种方法最有效，需要通过某种标准来衡量，在数学上就要构造某种准则(或判据)，这种用以定量检验分类性能的准则称为类别可分离性判据。类别可分离性判据，用来检验不同的特征组合对分类性能好坏的影响，并用来导出特征选择与特征提取的方法。 4.2.1 基于距离的可分性判据基于距离度量是人们常用来进行分类的重要依据，一般情况下同类物体内各样本由于具有共性，因此类内样本间距离应比跨类样本间距离小。因此, 利用类间距离构造类别的可分性判据是可行的。为了有利于分类, 总是希望不同类之间的距离大一些, 而同类的样本较集中, 这样类别的可分性才越好。  Fisher准则的基本原理是使类间距离尽可能大同时又保持类内距离较小。基于距离的可分性判据的实质是Fisher准则的延伸，即综合考虑不同类样本的类内聚集程度与类间的离散程度这两个因素。同样在特征选择与特征提取中也使用类似的原理，称为基于距离的可分性判据。 4.2.2 基于概率密度函数的可分性判据样本在特征空间的分布距离作为特征提取的依据优点：原理直观，计算简便缺点：没有考虑概率分布，因此当不同类样本在特征空间中有部分交迭分布时，简单地按距离划分，无法表明与错误概率之间的联系。依据不同类别类分布概率密度函数来构造判据、优化特征空间。不同类别聚集在特征空间的不同区域，它们重迭的程度越低，越有利于分类。三种典型的基于概率密度函数的可分性判据　　 4.3 基于可分性判据的特征提取特征