机器学习算法总结_PCA.docVIP

  • 11
  • 0
  • 约7.55千字
  • 约 14页
  • 2016-10-19 发布于重庆
  • 举报
机器学习算法总结_PCA

第章 利用PCA来简化数据 10.1 多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,相关性,势必增加了分析问题的复杂性。举一个简单的例子,现在需要进行了一项关于美国国民经济的研究,现有美国1929一1938年各年的数据,从中可以得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。要如何介绍美国国民收入与支出的情况?是否需要将这17个变量信息面面俱到的罗列出来呢?这样要素太多、信息量太过庞大,增加问题的复杂性和分析难度,不容易让别人抓住主要信息,工作量也会大大提高。并且要素与要素之间可能存在相关关系,这样会导致信息重叠,分析偏误。 17个变量,令人吃惊的是精度达到了97.4%。 主成分分析方法能够在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,在一个低维空间要比在一个高维空间处理问题容易得多。如此能够使问题得到更好的解决。 10.2 主成分分析的概念及基本 10.2.1 主成分分析的相关概念 主成分分析(Principal component analysis)缩写为PCA。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主成分分析

文档评论(0)

1亿VIP精品文档

相关文档