(49)--特征选择和特征提取.pdfVIP

  • 12
  • 0
  • 约1.89万字
  • 约 70页
  • 2024-02-27 发布于广东
  • 举报

基本概念

类别可分离性判据

特征选择的最优和次优算法

特征提取之PCA算法

特征提取之K-变换

基于PCA变换的iris数据分类

基本概念

【问题的提出】

特征

每一个特征对应特征空间的一个维度

特征越多,特征空间的维度越高

特征空间

问题1:如果用颜色、尺寸与重量组成的特征空间来区分苹果与

梨,这两类水果在特征空间中会如何分布?

问题2:如果用这个特征空间来区分红苹果与樱桃,这两类水

果在特征空间中又会如何分布?

原则:在保证分类效果的前提下用尽量少的特征来完成分类

【基本概念】

【特征选择】

一是对特征的评价,也就是怎样衡量一组特征对分类的有效性

二是寻优的算法,就是怎样更快地找到性能最优或比较优的特征组合。

定义与错误率有一定关系但又便于计算的类别可分性准则J,

ij

用来衡量在一组特征下第i类和第j类之间的可分程度。

对判据的要求:

1)判据应该与错误率有单调关系,这样才能较好的反映

分类目标。

2)当特征独立时,判据对特征应该具有可加性。

3)判据应该具有以下度量特性:

,当i≠j时

,当i=j时

4)理想的判据应该对特征具有单调性,加入新的特征不

会使判据减小

类别可分离性判据

计算各类特征向量之间的平均距离,考虑最简单的两

类情况,可以用两类中任意两两样本间的平均来代表两个

类之间的距离。

基本思想

判据的表达式

类间的平均距离为JD:

1cc1ninj

(i)(j)

JPPx,x

Dijkl

2nn

i1j1ijk1l1

其中

P,P:先验概率

ij

:x与x之间的距离度量

kl

T

(x,x)(xx)(xx)

klklkl

矩阵形式的类间距离的表达式JD:

定义:类均值向量:

总均值向量:

c

~

类间离散度矩阵S的估计:SP(mm)(mm)T

bbiii

文档评论(0)

1亿VIP精品文档

相关文档