- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 成分分析
第五章 主成分分析
在实际问题的研究中,一方面为了获取充分多的信息,往往选择许多指标(变量)去进行观测。另一方面,希望能把多指标综合成尽可能少的几个综合指标,使分析简化。如人口普查往往要调查每个人的姓名、年龄、性别、文化程度、职业等,对企业的统计中,往往有产量、产值、品种、消耗、费用、成本、生产率、收入、利润等。主成分分析就是把多个指标化为少数几个综合指标的一种通常适用的统计分析方法。如在“服装定型”研究中,要加工一件上衣,需要测量身高、臂长、胸围等。
§1 总体主成分
一、主成分的概念
设为随机向量,它的数学期望向量为,协差阵为,作标准化的线性组合,,如果Y1方差最大,则称为X的第一主成分;作标准化线性组合,如果Yr方差第r大,且不相关,则称为X的第r个主成分(一般地,。
二、主成分的求法
设,,作标准化的线性组合,则Y的方差为,那么求第一主成分就是求在条件下,使最大,求的条件极值。
令,求导后令其为零,
即 (1)
故 (2)
求(2)的特征根 ,
得:
即
故 的方差为,要使方差最大,取最大值,因此X的第一主成分为
其中为对应的标准化特征向量;若为第二大,对应的标准化特征向量为,则X的第二主成分为
综上所述,从p个指标出发,求主成分步骤为:
设资料矩阵为
(1)计算协差阵(或相关阵)V
(2)求 的特征根:
(3)求 的标准化特征向量
(4)写出主成分:
三、主成分的性质
主成分向量
其中
1.若,且,则Y的协差阵,且
证:
(*)
又
就是说,Y的协差阵为对角阵
又
就是说,的根对角线上元素。
2.若,且,则经正交变换后,广义方差及各主成分方差之和都不变。
证:
于是,
就是说,主成分向量Y的广义方差等于原向量X的广义方差
又有
即
就是说,各主成分Y方差和等于原有变量X方差和,即把P个变量变成P个主成分,其总方差没有变化。
四、例题
设市场上肉类X1,鸡蛋X2,水果X3,三种商品价格的月份资料的协差阵为
试求三种商品月份价格的主成分。
解:
对应的标准化特征向量分别为:
所求主成分分别为:
其方差分别为:
第一主成分方差占总方差的83%,所以第一主成分综合反映了三种商品价格的绝大部分变动。
§2 样本主成分及分析方法
一、样本主成分
设样本资料矩阵为求样本主成分的步骤为:
(1)数据标准化
作标准化变换:
其中
(i=1,2,…,P;k=1,2,…,n)
(2)计算协差阵或相关阵
或(与协方差阵的特征值与特征向量是不同的,即使标准化也未必相同,一般多用相关阵)
其中
(3)求R的特征根及其标准化的特征向量:
(4)写出主成分:
二、方差贡献率
1.称为第j个主成分的方差贡献率
如第一主成分的方差最大,比值表示Y1的方差在全部方差中所占比重,显然比值越大,表明这主成分综合X1,X2…,XP的能力越强,因此称比值为第一主成分的方差贡献率,等等。
2.称为前m个主成分的累积方差贡献率。
一般地,把的最小m称为应取主成分的个数,就是说,如果前m个主成分的累积方差超过85%,那么就用前m个主成分Y1,…,Ym来刻划原有变量X1,…,Xp的变化(mP)。
三、主成分分析的步骤
(1)求样本的主成分或(X*为X的标准化数据)
(2)计算方差贡献率
计算累积方差贡献率
(3)建立主成分方程
(k=1,2,…,P)
或 (k=1,2,…,P)
(4)解释主成分的意义
三、例题
企业经济效益的分析。
某公司有20个工厂,选取5个指标:X1:固定资产的产值; X2:净产值的劳动生产率; X3:百元产值的流动资金占用率;X4:百元产值的利润率; X5:百元资金的利润率。原始数据如表,试用主成分分析方法对每个工厂作经济效益的分析。
原始数据表
序号 Xk1 Xk2 Xk3 Xk4 Xk5 X1 243.87 16521 6.46 34.57 149.85 … … … … … X6 205.47 8123 12.33 18.48 46.18 … … … … … X11 608.40 22392 2.94 24.56 223.37 … … … … … X20 221.09 6443 14.08 30.25 80.48 386.09 12403.66 6.32 19.98 105.33 Si 135.57 4195.03 3.06 7.19 54.65
解:(1)求样本相关阵,(先把原始数据标准化)
(2)求R的特征根及特征向量
ai1 ai2 ai3 ai4 ai5 0.50
文档评论(0)