9-第五章_1 特征选择.docVIP

  • 7
  • 0
  • 约1.56千字
  • 约 11页
  • 2017-09-05 发布于江苏
  • 举报
第五章 特征选择(降维) (1)降维必须保证类别的可分离性或分类器的性能下降不多。 度量类别可分离性的量有: 欧氏距离(正态分布,协方差相等,且为单位阵) 马氏距离(正态分布,协方差相等) 巴氏距离(正态分布,协方差不等) 分散度(广义距离) (2)降维为抓主要矛盾,具有片面性,算法不具有普适性。 (3)图像处理:图像压缩; 模式识别:特征选择; 相同点:都是用低维数据来表示高维数据; 不同点:IP强调最优描述,PR强调最优区分。 §1 维数问题和类内距离 1] 维数问题 维数增加意味着计算量和存储量的增加。 维与维之间不一定相互独立,具有相关性,存在数据冗余。 盲目增加维数对提高分类器性能有可能有害无益。 一般,维数增加,信息量有所增加,增加的信息量不一定有益,好理解,但是否有害,需要解释。 维数增加,意味着待估的参数也会随之增多,而训练样本往往是有限的,用有限的训练样本估计较大维数的参数,其可行性和准确性都是难以保证。 2] 类内距离(类平均距离) 某一类别内,所有样本间相互距离之和的平均值。 注释:K为点集中点的个数;为的第k个分量。 = = 其中: = = = 各分量有偏方差: 无偏方差: 结论:类内距离为类协方差矩阵迹之和的2倍。 则:某类样本-协方差矩阵—协方差矩阵的迹-迹小,表示类内距离小,类抱得比较紧;反之,类抱得比较松。 §2 聚类变换-沿着类内

文档评论(0)

1亿VIP精品文档

相关文档