- 23
- 0
- 约1.8千字
- 约 3页
- 2018-05-25 发布于河南
- 举报
实证分析方法与软件3-主成分分析
主成分分析
问题的实际背景
在许多实际问题中,会涉及到许多变量。并且,由于这些变量自身之间存在一定的自相关性,使得它们作为单个变量来说,都是不显著的,但是,作为一个整体,它们却是显著的,若直接用这些变量构建模型,则模型将会变得相当复杂;若去掉一些变量,则模型将难以正确地解释实际问题。因此,在对这类问题构建数学模型时,希望压缩变量个数,简化问题。即根据原始变量,构造一个或几个“综合变量”。用这些综合变量代表原始变量。
主成分分析就是利用观测数据,将许多变量压缩为少数几个变量,构造综合变量的统计方法。
基本模型
假设有可观察的原始随机向量,它的期望,协方差矩阵。
设有可观察的原始个随机变量()(指标),希望构造它们的个线性组合(“综合”变量)
使得可以用这些新变量(指标)y的变化来解释原变量(指标)x的大部分变化,从而达到用这个变量(指标)来代表原始的个变量(指标)的目的。
主成分分析的任务是寻找,使得最大。由于当乘以任何大于1的常数会使该方差无限制增大,故在寻找时,要求。一般的,有
若是优化模型的解,则称是x的第一主成分;
若是优化模型的解,则称是x的第二主成分;
一般的,若是优化模型,的解,则称是x的第i主成分。
基本结论
注意,x的协方差矩阵至少是半正定矩阵,故V的特征值均大于或等于零。将的非零特征值从大到小依次记为。其相应的正交化单位特征向量分别记为。
定理1 x的第i主成分是,且
;
,。
定理2 设y是x的(顺序)主成分向量,则
定理3 设y是x的(顺序)主成分向量,则主成分与原始变量的相关系数是
。
这三个定理表明,主成分的系数是x的协方差矩阵的特征值,且主成分间独立;所有主成分的方差之和等于所有原始变量的方差之和。
主成分的意义
是的线性组合,可以认为是的一个“综合”。主成分分析就是利用线性变换,将个随机向量按“总方差”分解为个互不相关的“综合”随机变量,且这些“综合”变量的方差从小到大顺序排列。
比值
表示了的方差在总方差中所占的比重,称为的贡献率。该比值的大小表明了主成分对原随机变量的“综合”能力。它越大,表明其综合能力越强,用的变异去解释的变异的能力越强。因此,才将()称为()的主成分。进而,在实际过程中,用代替。
标准化变量的主成分分析
在实际问题中,随机变量x的各分量的量纲一般是不同的,若它们的差别太大,则通常需要先进行标准化处理,再进行所要求的分析。但是有例子表明,用标准化变量得到的主成分与直接用原始变量得到的主成分是不同的。
主成分的实际计算与运用
在实际应用中,随机向量的协方差矩阵通常是未知的,但可以得到的观察值。此时,可用的估计量来代替。常用的的估计量是样本协方差矩阵。记是单位方阵,是元素全为1的方阵,
,
分别是随机向量的样本观测矩阵和平均值向量,则随机向量的样本协方差矩阵是
计算样本协方差矩阵的特征值及对应的正交化单位特征向量再令
,
则是由的各个主成分组成的向量。此时,主成分观测矩阵是。
在实际应用过程中,为了达到压缩变量的目的,通常不使用所有的主成分,只使用前几个主成分。一般来说,当达到85%左右时,取前个主成分即可。或者用所谓的“滚石图”来确定要保留的主成分。
主成分分析是压缩变量,简化问题的一个有效的统计方法,但是,在实际使用中,主成分的实际意义不好解释,一般都是通过组合系数的大小来解释主成分的实际意义。
注意到是正交矩阵,故由可推知。因此,各个随机变量是它们的主成分的线性组合,的各列系数的大小表示了各个主成分对的作用大小。这样,在一个主成分的表达式中,可以把系数比较大的几个集中起来,将它们的实际意义赋予该主成分。
注意到正交矩阵之积仍然是正交矩阵,特征向量的线性组合仍然是特征向量,故与任意正交矩阵之积仍具有同一性质。因此,在实际应用过程中,可以选择适当的正交矩阵与相乘,使具有特定的形式,以凸现主成分的实际意义。这一过程常称为主成分的旋转变换。
例2:经专家分析,认为影响电力需求(y)的主要因素是钢产量(x1)、生铁产量(x2)、钢材产量(x3)、有色金属产量(x4)、原煤产量(x5)、水泥产量(x6)、机械工业总产值(x7)、化肥产量(x8)、硫酸产量(x9)、烧碱产量(x10)和棉纱产量(x11)(数据见文件“例题数据-主成分分析.xls”)。试建立电力需求模型。
您可能关注的文档
- 2010年度春季培训九年级英语第一讲.doc
- GMG直流隔离开关.pdf
- 毛概第一部分.doc
- Les5 PLSQL 整套文件.ppt
- 四级英语写作全.doc
- 善于交流和鼓励.doc
- 中西音乐差异.doc
- 以家电产业为分析对象.doc
- 第十二章 品牌.ppt
- 固化工程实例.doc
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- PPAP培训课件(详细).pdf VIP
- 2023山东传媒职业学院教师招聘考试笔试试题2.pdf VIP
- 2025年数据中心五年建设:AI算力与投资方向报告.docx
- WebGIS原理及开发—基于开源框架的WebGIS技术493.pptx VIP
- 鹤煤三矿关于成立原煤车间智能选矸系统升级改造项目领导小组的通知.doc VIP
- 2023年山东传媒职业学院教师招聘考试笔试试题及答案解析.docx VIP
- 北师大版6六年级数学上册全套计算题专项练习16页.pdf VIP
- 2025中考语文名著阅读专题06 《昆虫记》真题练习(单一题)(学生版+解析版).docx
- Q_26 4003HJTG001-2019无心车床技术条件.pdf
- LC-2030C型高效液相色谱仪(设备编号)再确认方案 .pdf VIP
原创力文档

文档评论(0)