- 7
- 0
- 约1.56千字
- 约 11页
- 2017-09-05 发布于江苏
- 举报
第五章 特征选择(降维)
(1)降维必须保证类别的可分离性或分类器的性能下降不多。
度量类别可分离性的量有:
欧氏距离(正态分布,协方差相等,且为单位阵)
马氏距离(正态分布,协方差相等)
巴氏距离(正态分布,协方差不等)
分散度(广义距离)
(2)降维为抓主要矛盾,具有片面性,算法不具有普适性。
(3)图像处理:图像压缩; 模式识别:特征选择;
相同点:都是用低维数据来表示高维数据;
不同点:IP强调最优描述,PR强调最优区分。
§1 维数问题和类内距离
1] 维数问题
维数增加意味着计算量和存储量的增加。
维与维之间不一定相互独立,具有相关性,存在数据冗余。
盲目增加维数对提高分类器性能有可能有害无益。
一般,维数增加,信息量有所增加,增加的信息量不一定有益,好理解,但是否有害,需要解释。
维数增加,意味着待估的参数也会随之增多,而训练样本往往是有限的,用有限的训练样本估计较大维数的参数,其可行性和准确性都是难以保证。
2] 类内距离(类平均距离)
某一类别内,所有样本间相互距离之和的平均值。
注释:K为点集中点的个数;为的第k个分量。
=
=
其中:
= = =
各分量有偏方差:
无偏方差:
结论:类内距离为类协方差矩阵迹之和的2倍。
则:某类样本-协方差矩阵—协方差矩阵的迹-迹小,表示类内距离小,类抱得比较紧;反之,类抱得比较松。
§2 聚类变换-沿着类内
您可能关注的文档
最近下载
- 杰斐逊共情量表(护生版)的编译及信效度检验.pdf VIP
- 新疆生产建设兵团兴新职业技术学院2026 年高职(专科)综合评价招生《素质测试》面试模拟试题及参考答案.docx VIP
- 新型纺丝甬道技术在氨纶生产中的应用.docx VIP
- 2026年重庆市公务员《行测》考试真题_含答案版.pdf
- 2026年内蒙古公务员《行测》考试真题_含答案版.docx
- 高效蜂窝整流的大型氨纶纺丝甬道.pdf VIP
- 2026年四川省公务员《行测》考试真题_含答案版.pdf
- 第七章 万有引力与宇宙航行测试卷.docx VIP
- 2026年新疆公务员《行测》考试真题_含答案版.pdf
- 2026年云南省公务员《行测》考试真题_含答案版.pdf
原创力文档

文档评论(0)