- 3
- 0
- 约3.75千字
- 约 7页
- 2019-10-18 发布于广东
- 举报
1.数据降维和特征选择的区别
数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。
特征选择,是从 n 个特征中选择 d (dn) 个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。在大部分情况下特征选择都是在冗余变量较多的情况下使用,特征之间并不是正交的,甚至还存在冗余坐标(即用p个特征表达了k (kp)维空间),因此删除部分冗余坐标并不会显著降维。另一方面,若原来的特征本身就是正交坐标系,那么删除多少特征就降了多少维,此时与降维类似,只是这种降维方式限定了只通过删除某几个坐标轴来实现。
降维,如果特指PCA这种线性降维方法,则降维所得的子空间是在原始坐标系旋转下不变的。而如果坐标系恰好选取为主向量,则PCA实际上等价于对这组特殊的坐标系进行特征选择,方式是根据样本在坐标轴上分散的程度来决定该坐标轴的去留。而在一般情形下,PCA降维所得的子空间是由几乎所有原始特征张成的,因此原始特征全部起作用。因此,有学者(Zou Hastie)提出了sparse PCA,旨在强迫使
您可能关注的文档
- 小学语文S版五年级上册课件2-金奖章.ppt
- 人教物理九年级全册第十五章第5节 串、并联电路电压的规律.ppt
- 不同类型的晶体.pptx
- 第一分册复习总结(华东版).ppt
- 非物质文化旅游资源的发展研究—以淮剧为例-.pptx
- 人教版九年级 14.1热机小练习题(无答案).doc
- 安全和禁毒教育.ppt
- 人教版高一生物必修一第三章第1节细胞膜—系统的边界.ppt
- 人教版八年级物理上册 第三章 第4节 升华和凝华 上课课件.pptx
- 外研版英语七年级上册-Module 3 Unit 2.pptx
- 广西南宁市第二中学2025-2026学年八年级下学期开学收心自测英语试卷(含解析).docx
- 广西南宁市武鸣区武鸣高级中学等校2026年高考模拟信息卷数学试题(含解析).docx
- 广西壮族自治区崇左市江州区2025-2026学年八年级上学期期末语文试题(含解析).docx
- 广西壮族自治区防城港市防城区2025—2026学年八年级上学期期末地理试题(含解析).docx
- 部编版一年级下册语文第五单元培优卷A卷(含答案).docx
- 福建省厦门海沧实验中学2025-2026学年高二上学期期末地理试题(含解析).docx
- 甘肃省天水市甘谷县模范初级中学2025-2026学年九年级数学下学期第一次检测考试试题(含解析).docx
- 甘肃省武威市凉州区爱华育新学校2025-2026学年九年级上学期12月月考英语试题(解析版).docx
- 甘肃张掖市2025--2026学年下学期九年级数学阶段反馈试卷(含解析).docx
- 广东惠州博罗县2025-2026学年九年级上学期阶段诊断历史试卷(含解析).docx
原创力文档

文档评论(0)