- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析方法综述 1引言(Introduction)
PCA(Principal Component Analysis),主成分分析,是一种数据分析的技术,主要思想是将高维数据投影到较低维空间,提取多元事物的主要因素,揭示其本质特征。主成分分析的应用范围非常广泛,经常和分类、聚类,以及与其他方法连用进行数据处理。它可以高效地找出数据中的主要部分,将原有的复杂数据降维,去除整个数据中的噪音和冗余。
PCA是一种统计分析方法,它将原来众多具有一定相关性的多个指标,重新组合成一组新的互相无关的综合指标[1]。它是一种最小均方意义上的最优变换,目的是去除输入随机向量之间的相关性,突出原始数据中的隐含特性[2]。PCA方法的优势在于数据压缩以及对多维数据进行降维,它操作简单,且没有参数限制,可以方便的应用于各个场合。
它经常被用于人脸识别和图像压缩、特征提取等领域,是在高维数据中寻找模式的一种技术[3]。
2主成分分析方法(Principal component analysis )2.1主成分分析方法的目标
由于原始数据的变量基数比较复杂,难以描述其特征,主成分分析提出了一种简单解决问题的思想,从事物的主要方面进行重点分析。该方法认为某个事物的特征集中在几个主要变量上,只需要将这几个变量分离出来,对这几个变量进行重点分析,用它们的线性组合表示事物的主要特征。因此,主成分分析方法的目标就是寻找x(xn)个新变量,用 这x个变量反映事物的主要特征,实现对原始数据矩阵规模的压缩。这 x个新变量就是“主成分”,用它们反映原来n个变量的特征,并且这x 个变量之间是互不相关的。通过主成分分析实现数据维数的压缩,将多 元数据特征在低维空间中反映出来[3]。
2.2PCA模型
PCA是一种正交变换,利用二阶的统计信息进行计算。它强调数 据之间的相似和不同,是一种在高维数据中寻找模式的技术[2]。对于原 始数据,我们可以通过一些变换来提取数据间的内在特征,其中一种方 法就是通过线性变换去实现[4]。这个过程可以表示为:
这里是一个变换值,可以把它当作基本的变换矩阵,通过此变换来 提取原始数据的特征。令为表示环境的维随机向量。假设均值为零,艮P:
令表示为维单位向量,在其上投影。这个投影被定义为向量和的内 积,表示为:
在上式中,需满足以下约束条件:
主成分分析方法就是寻找一个权值向量,它能够使表达式取最大 值[4]。
2.3特征值求解
最大PCA特征根求解的步骤如下:
(1)将原始数据表示为m*n的矩阵。n为原始数据的个数,m为变量个数。
(2)计算原始数据的均值。
(3)用原始数据减去均值,得到矩阵X。
(4)对XXT进行特征根分解,求特征向量及其对应的特征值。
(5)选取最大的若干个特征值对应的特征向量,即为求得的主成分。
PCA方法用线形代数可以描述为:寻找一组正交基组成的矩阵P,定义Y=PX,使得CY=MYYT是对角阵。P的行向量,就是数据X的主成分,也就是XXT的特征向量,矩阵CY对角线上第i个元素是数据X在方向Pi的方差[4]。
2.4主成分数量的选取
主成分是n个原始变量的线性组合,各主成分之间互不相关。每个主成分对应一个方差,该方差为协方差阵对应的特征值,各主成分特征值之和为1。将主成分按照其对应的方差值从大到小依次排列,则最大的方差对应第一主成分,以此类推。
选择主成分的数量取决于保留部分的累积方差在总方差中所占的百分比。由于所有主成分的总方差值是确定的,前面变量的方差较大,则后面的变量方差就较小。只有前几个综合变量才称得上是主成分,后几个综合变量为次成分。一般情况下,可根据问题的实际需要,主观地确定一个百分比值,当前x项的方差之和大于此百分比值时,就可以决定保留前x个主成分,而忽略后面的次成分[5]。
3主成分分析的特点(Characteristic of PCA)综上所述,主成分分析方法有很多优点,可将其归纳如下:
(1)在数据处理时,舍弃了一部分主成分,只取前几个方差较大的几个主成分来表示原始数据,可减少计算量。
(2)主成分之间是互不相关的,消除了原始数据之间的相关影响。在选取评价指标时,消除了指标之间的相关影响,因此更容易选择指标。
而且实践证明指标之间相关程度越高,主成分分析效果越好。
(3)在综合评价函数中,主成分的权数为各个主成分的贡献率,反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定地权数比较客观、合理,克服了某些评价方法中人为确定权数的缺陷。
(4)主成分分析的计算方法比较规范,便于在计算机上实现。
主成分分析方法的不足主要体现在两个方面:
(1)所得到的主成分实际含义模糊,没
原创力文档


文档评论(0)