- 51
- 0
- 约2.94万字
- 约 40页
- 2015-08-11 发布于重庆
- 举报
MATLAB_主成分数据处理.doc
主成分分析
主成分分析(principal component Analysis),是由皮尔逊(pearson)于1901年首先引入,后来由霍特林(hotelling)于1933年进行了发展。
在实际问题中,为了尽可能完整的获取有关的信息,往往需要考虑众多的变量,这虽然可以避免重要信息的疏漏,但也增加了分析的复杂性,一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。
本章主要内容包括:主成分分析的理论简介,主成分分析的MATLAB实现,主成分分析的主要具体案例。
11.1主成分分析简介
11.1.1主成分分析的几何意义
假设从二元总体 (EX=0)中抽取容量为n的样本,绘出样本观测值的散点图,散点大致分布在一个椭圆内与呈现出明显的线性相关。这n个样品在轴方向和方向具有相似的离散度,离散度可以用和包含了近视相等的信息量,丢掉其中任意一个变量,都会损失比较多的信息。逆时针旋转一个角度,使得轴旋转到椭圆的长轴方向,轴旋转到椭圆的短轴,则有
(11.1)
此时可以看到,n个点在新坐标系下的坐标和几乎不相关,并且的方差要比的方差大得多,也就是说包含了原始数据中大部分的信息,此时丢掉变量,信息的损失是比较小的。这里称为第一主成分为第二主成分。
主成分分析的目的就是对原变量加以改造,在不致损失原变量太多信息的情况下尽可能地降低原变量的维数,即用较少的新变量代替原来的各变量。
主成分分析的过程其实就是坐标系旋转的过程,新坐标系的各个坐标系的轴的方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式。
11.1.2 总体的主成分
1、从总体协方差矩阵出发求解主成分
设为一个维总体,假定期望和协方差矩阵均存在并已知,记,,考虑如下线性变换
其中,均为单位向量。
下面求,使得的方差达到最大。
设为的个特征值,为相应的正交单位特征向量,即,,,,
由矩阵知识可知
其中为正交矩阵,是对角元素为的对角矩阵。
考虑的方差
(11.3)
由式(11.3)可知,当时,的方差达到最大,最大值为。称为第一主成分。如果第一主成分从数据中提取的信息还不够多,还应考虑第二主成分。下面求,在条件下使得的方差达到最大。由
可得,于是
(11.4)
由式(11.4)可知,当时,的方差达到最大,最大值为。称为第二主成分。类似的,在约束下可得,当时的方差达到最大,最大值为。称
为第i主成分。
2主成分的性质
(1)主成分向量的协方差矩阵为对角阵
记
(11.5)
则
,
即主成分向量的协方差矩阵为对角矩阵。
(2)主成分的总方差等于原始变量的总方差:
设协方差矩阵,则,于是
由此可见,原始数据的总方差等于个互不相关的主成分的方差之和,也就是说个互不相关的主成分包含了原始数据中的全部信息,但是主成分所包含的信息更为集中。
总方差中第个主成分的方差所占的比例称为主成分的贡献率。主成分的贡献率反映了主成分综合原始变量信息的能力,也可理解为解释原始变量的能力。由贡献率定义知,个主成分的贡献率依次递减,即综合原始变量信息的能力依次递减。第一个主成分的贡献率最大,即第一个主成分综合原始变量信息的能力强。
前个主成分的贡献率之和称为前个主成分的累积贡献率,它反映了前个主成分综合原始变量信息(或解释原始变量)的能力。由于主成分分析的主要目的是降维,所以需要在信息损失不太多的情况下,用少数几个主成分来代替原始变量,以进行后续的分析,究竟用几个主成分来代替原始变量才合适呢?通常的做法是取较小的,使得恰前个主成分的累积贡献率不低于某一水平(如85%以上),这样就达到了降维的目的。
(3)原始变量与主成分之间的相关系数
由式(11.5)可知于是
(11.6)
从而
(4)前个主成分对变量的贡献率
称
为前个主成分对变量的贡献率。这个贡献率
您可能关注的文档
- (c密度地下大于地上有张c循环图)湿地生态系统碳储存和温室气体排放研究.pdf
- (SWA作品)刘易斯大道景观设计.pdf
- (利用Excel函数计算土建工程量).xls
- (海岸线)上海崇明东滩岸线演变分析及趋势预测_李行.pdf
- 0410.基于产业特征的工业用地集约利用方法初探——以湖北省汉川市北桥新街等片区控规为例.pdf
- 100分我国“三农”热点问题与政策走向(上)试卷.doc
- 201004基于全国矿业权核查坐标转换技术的研究.pdf
- 2010年广西公务员申论真题(附面试技巧).pdf
- 2010风景园林综合理论试题.pdf
- 201110410608一种电动汽车动力电池梯次利用的分级方法申请公开.pdf
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)