- 7
- 0
- 约6.68千字
- 约 52页
- 2020-09-10 发布于湖北
- 举报
主分量分析又称主成分分析,也有称 经验正交函数分解或特征向量分析。 分析对象:以网格点为空间点(多个变量)随时间变化的样本 。 主分量分析与回归分析、差别分析不同,它是一种分析方法而不是一种预报方法 。 我们希望可以通过某种线性组合的方法使某个变量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称为主分量。 ;.; 主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特征提取的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果就越好。PCA可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少方差。 ;.; * 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 ;.; PCA主要用于数据降维,对于一组样本的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是最能代表此元素的“精品”,而且计算量也变小了。 ?对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。 ;.; 例如,一个45度倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好! 所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。 ;.; ? 举一个例子: ??? 对于一个训练集,100个样本,特征是10维,那么它可以建立一个100*10的矩阵,作为样本。求这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有10个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个10*4的矩阵,这个矩阵就是我们要求的特征矩阵,100*10的样本矩阵乘以这个10*4的特征矩阵,就得到了一个100*4的新的降维之后的样本矩阵,每个样本的维数下降了。 ;.; 二、主分量分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵 (1.2.1) ;.; * 当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。 ;.; * 定义:记x1,x2,…,x P为原变量指标,z1,z2,…,z m(m≤p)为新变量指标 (1.2.2) 系数lij的确定原则: ① z i与zj(i≠j;i,j=1,2,…,m)相互无关; ;.; * ② z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…; zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差最大者。
您可能关注的文档
- 精梳版铸造过程数值模拟及应用实例.ppt
- 最终版著者略历.ppt
- 著名的冷泉奇景归纳.ppt
- 柱配筋图讲解汇总.ppt
- 柱配筋图(汇总).ppt
- 经典柱箍筋长度以及根数计算公式.ppt
- (汇总)注塑过程和原理.ppt
- 复习课件住院医师规陪出科考试辅助检查4.ppt
- 住院医师规陪出科考试辅助检查1(可直接使用).ppt
- 整理住院医师规范化培训临床技能考核.ppt
- 2026年云南三鑫职业技术学院单招职业技能考试题库及参考答案详解.docx
- 2026年云南三鑫职业技术学院单招职业技能测试题库带答案详解.docx
- 2026年云南三鑫职业技术学院单招职业技能测试题库附答案详解.docx
- 2026年云南三鑫职业技术学院单招职业技能测试题库含答案详解.docx
- 员工行为规范严格遵守承诺书5篇.docx
- 2026年云南三鑫职业技术学院单招职业适应性考试题库带答案详解.docx
- 论阅读的重要性议论文初体验(13篇).docx
- 2026年云南三鑫职业技术学院单招职业适应性考试题库含答案详解.docx
- 2026年云南三鑫职业技术学院单招职业适应性考试题库及参考答案详解一套.docx
- 2026年云南三鑫职业技术学院单招职业适应性考试题库及参考答案详解1套.docx
最近下载
- (必会)铁路机车车辆驾驶人员(J5类)近年考试真题题库资料(含答案).pdf VIP
- 《绘本赏析与阅读指导》学前教育专业全套教学课件.pptx
- Q/GDW 13237.1—2018 10kV架空绝缘电缆采购标准(第1部分:通用技术规范).pdf VIP
- NY-T 490-2002 椰子果.pdf
- 《产后盆底肌康复》课件.ppt VIP
- 楷书六十四个种子字口诀.pdf VIP
- 2026年医卫类医用设备使用人员业务能力考评CT医师-CDFI技师参考题库含答案解析(5卷题有答案).docx VIP
- 2025年江苏专转本《化工生物综合操作技能》精编讲义复习备考必备资料.pdf VIP
- 体育与物理学融合.pptx
- 统编版初中语文教材中论说类文言文的教学策略.pdf VIP
原创力文档

文档评论(0)