模式识别导论 五.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别导论 五.ppt

模式识别 Pattern Recognition 张正道 江南大学通信与控制工程学院 信息安全系 Ch5.特征选择与提取 在讨论设计分类器的方法时,提到有一个样本集,样本集中的样本用一个已经确定的向量来描述,这也就是说对要分类的样本怎样描述这个问题是已经确定的。在这种条件下研究用线性分类器好还是非线性分类器好,以及这些分类器的其它设计问题。 本章要讨论的问题是对已有的特征空间进行改造,着重于研究对样本究竟用什么样的度量方法更好。 对分类器设计来说,使用什么样的特征描述事物,也就是说使用什么样的特征空间是个很重要的问题。 这个问题称之为描述量的选择问题,意思是指保留哪些描述量,删除哪些描述量的问题。但对特征进行删选并不是唯一的方法,这种方法也不一定很有效,因此本章还要研究其它方面,由于对特征空间进行改造目的在于提高其某方面的性能,因此又称特征的优化问题。 5.1 基本概念 之前讨论的分类方法,都是在确定的d维特征空间中进行的。分类器设计就是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。 本章讨论特征空间设计的问题。即如何构造特征空间,对要识别的事物如何进行描述、分析的问题。 分类器研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。如果所选的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,就可为分类器设计提供良好的基础。反之,如果不同类别的样本在该特征空间中混杂在一起,再好的分类方法也无法提高分类器的准确性。 对具体问题,有以下几个不同的层次: 1.特征形成: 根据被识别对象产生一组基本特征。它可以是计算得到的,也可以是由仪表、传感器获取的物理量,这些物理量获取的同时已转换成电信号,为计算机分析打下了基础。 对从传感器中得到的信号,可以称之为原始信息,因为它要经过加工、处理才能得到对模式分类更加有用的信号。 2.特征提取 在得到了原始信息之后,要对它进一步加工,以获取对分类最有效的信息。这部分信息必须对原始信息进行加工,而设计所要信息的形式是十分关键的。这种对原始度量的加工与处理,是特征提取的主要内容。 原始特征一般属于高维空间中,通过映射的方法在低维空间中对原始特征进行表示。映射后的特征称为二次特征。 3.特征选择 从一组特征中选择最有效的特征,删掉部分对分类影响不大的特征,从而降低特征的维数。 5.2 类别可分性测度(判据 ) 特征选择与特征提取的任务是求出一组对分类最有效的特征,所谓有效是指在特征维数减少到同等水平时,其分类性能最佳。因此需要有定量分析比较的方法,判断所得到的特征维数及所使用特征是否对分类最有利。   一般说来分类器最基本的性能评估是其分类的错误率,如果能用反映错误率大小的准则,在理论上是最合适的。 关于判据,最理想的情况是与计算错误率有关的判据,但直接反映错误率有关的是贝叶斯公式,显然在实际中运用有困难,但是正如在前述章节讨论中提到的,对错误率的计算是极其复杂的,以至于很难构筑直接基于错误率的判据。因此又提出一些其它实用性强的判据。这些判据多多少少与错误率有关。 这些判据大体分两类,一类以计算样本在特征空间离散程度为基础的准则,称为基于距离的可分性判据,另一类则基于概率密度分布的判据。 为此人们设法从一些直观的方法出发,设计出一些准则,一般称为类别可分离性判据,用来检验不同的特征组合对分类性能好坏的影响,甚至用来导出特征选择与特征提取的方法。 5.2.1基于距离的可分性测度(判据 ) 基于距离的可分性判据的实质是Fisher准则的延伸,即综合考虑不同类样本的类内聚等程度与类间的离散程度这两个因素。判据的优化体现出降维后的特征空间很好地体现类内密集、类间分离的要求。换句话说,一些不能体现类间分隔开的特征很可能被排除掉了。 基于距离度量是常用的重要分类依据,因为一般情况下同类物体在特征空间呈聚类状态,即从总体上说同类物体内各样本由于具有共性,因此类内样本间距离应比跨类样本间距离小。Fisher准则正是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的。同样在特征选择与特征提取中也使用类似的原理,这一类被称为基于距离的可分性判据。 为了度量类内、类间的距离,也可用另一种描述方法,即描述样本的离散程度的方法。在讨论Fisher准则时曾用过两个描述离散度的矩阵。一个是类间离散矩阵Sb,    另一个是类内离散度矩阵SW,有: 及 在欧氏距离情况下有 (5-3) 利用均值向量Mi与总均值向量M,有 (5-4) (5-5) 代入上式可得 (5-6) 上式中右边括弧里的前一项涉及类内各特征向量之间

文档评论(0)

好文精选 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档