降维与特征选择.docxVIP

下载本文档

3
0
约3.75千字
约 7页
2019-10-18 发布于广东
举报

降维与特征选择.docx

1.数据降维和特征选择的区别数据降维，一般说的是维数约简（Dimensionality reduction）。它的思路是：将原始高维特征空间里的点向一个低维空间投影，新的空间维度低于原特征空间，所以维数减少了。在这个过程中，特征发生了根本性的变化，原始的特征消失了（虽然新的特征也保持了原特征的一些性质）。特征选择，是从 n 个特征中选择 d (dn) 个出来，而其它的 n-d 个特征舍弃。所以，新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。在大部分情况下特征选择都是在冗余变量较多的情况下使用，特征之间并不是正交的，甚至还存在冗余坐标（即用p个特征表达了k (kp)维空间），因此删除部分冗余坐标并不会显著降维。另一方面，若原来的特征本身就是正交坐标系，那么删除多少特征就降了多少维，此时与降维类似，只是这种降维方式限定了只通过删除某几个坐标轴来实现。降维，如果特指PCA这种线性降维方法，则降维所得的子空间是在原始坐标系旋转下不变的。而如果坐标系恰好选取为主向量，则PCA实际上等价于对这组特殊的坐标系进行特征选择，方式是根据样本在坐标轴上分散的程度来决定该坐标轴的去留。而在一般情形下，PCA降维所得的子空间是由几乎所有原始特征张成的，因此原始特征全部起作用。因此，有学者（Zou Hastie)提出了sparse PCA，旨在强迫使

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

降维与特征选择.docxVIP