第七章 特征提取与选择.pptVIP

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
7.7.1 次优搜索法 (四) 增l 减r 法(l-r 法) 为了克服前面方法 ( 二 ) 、 ( 三 ) 中的一旦某特征 选入或剔除就不能再剔除或选入的缺点,可在选择 过程中加入局部回溯,例如在第 k 步可先用方法 ( 二 ) ,对已选入的 k 个特征再一个个地加入新的特征 到 k l + 个特征,然后用方法 ( 三 ) 一个个地剔除 r 个特 征,称这种方法为增 l 减 r 法 ( l r - 法 ) 。 6选2的特征选择问题 (a)搜索树 (b)搜索回溯示意图 7.7.2 最优搜索法 BAB算法 s=0 s=1 s=2 s=3 s=4 树的每个节点表示一种特征组合, 树的每一级各节点表示从其父节点的特征组合中去掉一个特征后的特征组合,其标号k表示去掉的特征是xk 。 7.7.2 最优搜索法 BAB算法 由于每一级只舍弃一个特征,因此整个搜索树除根节点0级外,还需要n-d级,即全树有n-d级。例如,6个特征中选2个,整个搜索树有4级。 第n-d级是叶节点,共有Cnd个叶节点。 BAB算法 7.7.2 最优搜索法 表示特征数目为l 的特征集合。 表示舍弃s 个特征后余下的特征集合。 表示当前节点的子节点数。 表示集合?s中元素的数目。 表示第s 级当前节点上用来作为下一级可舍弃特征的特征集合。 由于从根节点要经历n-d级才能到达叶节点,s级某节点后继的每一个子节点分别舍弃?s中互不相同的一个特征,从而考虑在s+1级可以舍弃的特征方案数(即子节点数)qs时,必须使这一级舍弃了特征后的Xs+1还剩(n-d)-(s+1)个特征。除了从树的纵向上每一级舍弃一个特征,实际上从树的横向上,一个分支也轮换舍弃一个特征。因此后继子节点数 qs=rs-(n-d-s-1) BAB算法 7.7.2 最优搜索法 BAB算法 7.7.2 最优搜索法 s s+1 n-d (n-d)-(s+1) qs rs BAB算法 7.7.2 最优搜索法 BAB算法 7.7.2 最优搜索法 BAB算法 7.7.2 最优搜索法 目标:找出叶节点Lk,使其对应的d个特征的判据J的值最大,即: 注意到每个节点(包括非叶节点)都可以计算相应的J值。由于判据J值具有单调性,即: 该不等式表明,任何节点的J值均不小于其任何后继节点(子节点)的J值。 BAB算法 7.7.2 最优搜索法 搜索顺序:从上至下、从右至左。 四个步骤: 1、向下搜索 2、更新界值 3、向上回溯 4、停止回溯再向下搜索 BAB算法 7.7.2 最优搜索法 向下搜索: 初始,置界值B=0 从树的根节点沿最右边的一支自上而下搜索。 对于一个节点,它的子树最右边的一支总是无分支的。此时可直接到达叶节点,计算该叶节点的J值,并更新界值B。即图中的虚线可省略而得到最小搜索树。 BAB算法 7.7.2 最优搜索法 最小搜索树 BAB算法 7.7.2 最优搜索法 向上回溯和停止回溯: 回溯到有分支的那个节点则停止回溯转入向下搜索。 例如回溯到qs-11 的那个节点,则转入与当前节点左邻的s深度的那个节点,使该节点成为当前节点,按前面的方法沿它最右边的子树继续搜索。 在搜索过程中先要判该节点的J值是否比B值大。若不大于B值,该节点以下的各子节点J值均不会比B大,故无需对该子树继续进行搜索。 BAB算法 7.7.2 最优搜索法 如果搜索到叶节点,且该叶节点代表的特征的可分性判据JB,则更新界值,即B=J;否则不更新界值。 到达叶节点后,要向上回溯。重复上述过程,直到J?B为止。而对应当前(最大)界值B的叶节点对应的d个特征组合就是所求的最优的选择。 BAB算法效率高的原因: (1)在构造搜索树时,同一父节点的各子树的右边的边要比左边的少,即树的结构右边比左边简单; (2)在同一级中按最小的J值从左到右挑选舍弃的特征,即节点的J值是左小右大,而搜索过程是从右至左进行的; (3)因J的单调性,若树上某节点A的可分性判据值 JA?B ,则A子树上各节点的J值都不会大于B,因此不需要搜索A子树。 从上可知,有很多特征组合不需计算仍能求得全局最优解。 * 在特征空间中,当类内模式较密聚,而不同类的模式相距较远时,从直觉上我们知道分类就较容易,由各判据的构造可知,这种情况下所算得的判据值也较大。由判据的构造我们还可以初步了解运用这类判据的原则和方法。 * 先研究两类问题。图7.2.1示出了两类一维情形下的概率分布密度,图中,(a)表示两类是完全可分的,(b)是完全不可分的。由图可看出,若所有使p(x|?1)≠0的x点都有p(x|?2)=0 ,则两类是完全可分的;相反,若对所有x都有p(x|?1) = p(x|?2) ,则两类是完全不可分的,由此启发我们可用两类概密函数的重迭程度来度量可分性,构造基于类概密的可分性判据。

文档评论(0)

开心果 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档