- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析 主成分分析法是采取一种数学的降维方法,其要做的就是将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量代替原来的变量。 指标 样本 X1 X2 ··· Xn 1 2 ··· m Y11 Y12 ··· Y1n Y21 Y22 ··· Y2n ··· ··· ··· ··· Ym1 Ym2 ··· Ymn 表1 n个指标取值的一组样本数据 一、主成分的计算 1. 对样本进行标准化处理 数据标准化首先是无量纲化,因为不同指标的量纲通常是不完全相同的,为了使各指标之间具有可比性,必须消除指标的量纲。其次,数据的原始样本不一定满足E(X)=0,因此必须对原始样本数据进行标准化处理,以便使样本数据量纲为一,并且满足E(X)=0。 标准化处理的计算式为: 经标准化处理后可得到标准化矩阵: 2.计算相关系数,得到相关矩阵 计算标准化后的每两个指标间的相关关系,得到相关系数矩阵R,即n个指标的协方差矩阵。即 3.计算矩阵R的特征根及相应的特征向量 于是得到n个非负特征根 从而得到对应于特征根的n个单位化特征向量,构成一个正交矩阵,记为a,则 aij中的i为第i个主分量,j为第j个分量。 4.计算主成分 对于m个样本中的第k个样本,根据 则可得n个主成分如下 对于全部的m个样本,则有 即: 整理得: 式中Z0 —样本主成分,X0—标准化的样本。 二、样本主成分选择及原指标对主成分回归 1.主成分选择 2.原指标对主成分的回归 原指标对主成分的回归问题即为在 中如何确定回归系数矩阵B的问题。 将 两端分别左乘 变为 ,即得回归系数 . 当取前r个主成分时, 为 三、主成分分析的应用 例1 某电子工业部所属的15个工厂某年份的经济效益数据如表2所示。其中 厂序 x1 x2 x3 x4 x5 x6 1 69.87 269.1 94.38 115.74 23.85 74 2 66.31 260 89.01 93.3 40.09 80 3 67.26 272.54 89.29 78.9 26.7 84 4 68.46 250.18 94.24 76.87 24.98 18 5 39.45 146.17 54.04 90.95 17.46 109 6 24.82 116.86 31.51 81.59 10.42 117 7 30.21 73.6 51.23 39.52 31.06 227 8 31.24 168.31 38.37 62.16 14.29 129 9 23.29 109.42 29.59 29.67 8.23 99 10 23.1 92.41 30.8 43.57 12.48 136 11 18.95 57.63 28.24 21.91 17.23 231 12 8.65 21.71 14.35 9.63 8.26 177 13 5.1 27.27 6.38 8.6 6.46 239 14 4.66 18.42 6.24 8.59 4.54 231 15 1.92 9.28 2.42 3.33 9.67 135 四、主成分分析应注意的问题 由数理统计中的大数定理可知,随着样本容量的增大,它们的平均水平和离散程度将会趋于稳定,从而协方差矩阵也会趋于稳定,因此,主成分分析适宜于大样本容量的因素分析。一般来说,要求样本容量应大于指标个数的两倍(即m2n)。
文档评论(0)