第8节模式识别.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8章 特征选择与提取 特征抽取的目的是获取一组“少而精”的分类特征,即获取特征数目少且分类错误概率小的特征向量。 特征抽取常常分几步进行。 第一步:特征形成 第二步:特征选择 第三步;待征提取 本章只讨论特征选择和特征提取的方法 8.1 类别可分性准则 特征选择或特征提取的任务是从n个特征中求出对分类最有效的m个特征(m<n)。 需要一个定量的准则来衡量选择结果的好坏。 从理论上讲,设计分类器,那么用分类器的错误概率作为准则就行了。 但是,从第四章中错误概率的计算公式就会发现,即使在类条件概率密度已知的情况下错误概率的计算就很复杂,何况实际问题中概率分布常常不知道,这使得直接用错误概率作为准则来评价特征的有效性比较困难。 希望找出另外一些更实用的准则来衡量各类间的可分性 。 希望实用的可分性准则满足下列几条要求: ①与错误概率有单调关系。 ②度量特性: 这里 是第i类和第j类的可分性准则函数, 越大,两类的分离程度就越大。 ③单调性,即加入新的特征时,准则函数值不减小。 如果采用欧氏距离,即有 (8.1-2) (8.1-3) 式中, 表示第i类样本集的均值向量 表示所有各类的样本集总平均向量 也可以用下面定义的矩阵写出 的表达式。 令 (8.1-4) (8.1-5) 则 其中 表示取矩阵 的迹。 为类内离散度矩阵, 为类间离散度矩阵。 另一个极端情况是,如果能有一组特征使得 此时x划归 类,其错误概率为0。 可见后验概率越集中,错误概率就越小。后验概率分布越平缓(接近均匀分布),则分类错误概率就越大。 为了衡量后验概率分布的集中程度,需要规定一个定量准则,我们可以借助于信息论中关于熵的概念。 设 为可能取值 的一个随机变量,它的取值依赖于分布密度为 的随机向量x(特征向量) 。我们想知道的是:给定某一x后,我们从 观察的结果中得到了多少信息?或者说 的不确定性减少了多少? 从特征抽取的角度看,用具有最小不确定性的那些特征进行分类是有利的。 在信息论中用“熵”作为不确定性的度量,它是 , ,…, 的函数。可定义如下形式的广义熵: 式中, 是一个实的正参数, 。 不同的 值可以得到不同的熵分离度量,例如当 趋近于1时,根据L’Hospital法则有 当 =2时,得到平方熵 显然,为了对所提取的特征进行评价,我们要计算空间每一点的熵函数。在熵函数取值较大的那一部分空间,不同类的样本必然在较大的程度上互相重叠。因此熵函数的期望值 可以表征类别的分离程度,它可用来作为所提取特征的分类性能的准则函数。 8.2 特征选择 从n个特征中挑选出m(m<n)个最有效的特征,这就是特征选择的任务。 最直接的特征选择方法是根据专家的知识挑选那些对分类最有影响的特征。 另一种是用数学方法进行筛选比较,找出最有分类信息的特征。本节只讨论用数学方法进行特征选择。 要完成特征选择的任务,必须解决两个问题: 选择的标准,这可以用前面讲的类别可分性准则,选出使某一可分性达到最大的特征组来。 找一个较好的算法,以便在较短的时间内找出最优的那一组特征。 有两个极端的特征选择算法,一个是单独选择法,另一个是穷举选择法。 1. 单独选择法 就是把n个特征每个特征单独使用时的可分性准则函数值都算出来,按准则函数值从大到小排序,如

文档评论(0)

xiaofei2001129 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档