3.6主成分分析.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.6主成分分析

第六节 主成分分析 教学要求 理解主成分分析的基本原理 掌握主成分分析的计算步骤 问题的提出: 例1:我们知道生产服装有很多指标,比如袖长、肩宽、身高等十几个指标,服装厂生产时,不可能按照这么多指标来做,怎么办?一般情况,生产者考虑几个综合的指标,象标准体形、特形等。 例2:企业经济效益的评价,它涉及到很多指标。例百元固定资产原值实现产值、百元固定资产原值实现利税,百元资金实现利税,百元工业总产值实现利税,百元销售收入实现利税,每吨标准煤实现工业产值,每千瓦时电力实现工业产值,全员劳动生产率,百元流动资金实现产值等,我们要找出综合指标,来评价企业的效益。 例3 假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如何向上级汇报? 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。 主成分分析( Principal Component Analysis ) 每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。 这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 一、主成分分析的基本原理 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。 从本例可能提出的问题 能不能把这个数据的6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢? 例中的数据点是六维的 先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的) 由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的信息将会有较大的损失。 如果我们将 x1 轴和 x2 轴先平移,再同时按逆时针方向旋转?角度,得到新坐标轴 z1和z2, z1和z2是两个新变量。 旋转变换的目的是为了使得n个样品点在zl轴方向上的离散程度最大,即zl的方差最大。变量zl代表了原始数据的绝大 部分信息,即使不考虑变量z2也无损大局。经过上述旋转变换原始数据的大部分信息集中到zl轴上,对数据中包含的信息起到了浓缩作用。 把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 主成分选择的依据 选择越少的主成分,降维就越好。 被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。 有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。 注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。 数学中的推导 假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵 二、主成分分析的计算步骤 (一)计算相关系数矩阵 rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为 三、 主成分分析方法应用实例 四 在SPSS中实现过程 进行主成分分析主要步骤如下: 1.????? 指标数据标准化(SPSS软件自动执行); 2.????? 指标之间的相关性判定; 3.????? 确定主成分个数m; 4.????? 主成分Zi表达式; 5.????? 主成分Zi命名; 相关系数矩阵 这里的Initial Eigenvalues就是这里的九个主轴长度,又称特征值(数据相关阵的特征值)。头三个成分特征值累积占了总方差的86.596%。后面的特征值的贡献越来越少。 主成分载荷 这里每一列代表一个主成分作为原来变量线性组合的系数。比如第一主成分作为个原先变量的线性组合的系数 如用x1,x2,x3,x4,x5,x6, x7, x8, x9, 分别表示原先的九个变量,而用z1,z2,z3,z4,z5,z6, z7,z8,z9表示新的主成分,那么,原先九个变量与第一、第二和第三主成分z1,z2,z3的关系为: z1=0.739x1 +0.123x2-0.964x3+0.042x4 +0.813x5+0

文档评论(0)

ea238982 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档