- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[人文社科]系统工程第3章 主成分分析
当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维效果就越好。 对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。 正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。 选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,具体选几个,要看实际情况而定。 2. 求解特征方程 =0 化简得: 解得: 3.求特征值所对应的单位特征向量 所对应的单位特征向量 , 其中 解得 ( )= 所对应的单位特征向量 ,其中 解得: 4. 得到主成分的表达式 第二主成分: 第一主成分: 5.主成分的含义 通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。 第一主成分F1是 和 的加权和,表示该生成绩的好坏。 第二主成分F2表示学生两科成绩的均衡性 6. 比较主成分重要性 第一主成分F1的方差为 第二主成分F2的方差为 方差贡献率 方差贡献率为 主成分F1和F2的方差总和为 原变量 和 的方差总和为 总方差保持不变 身高x1(cm) 胸围x2(cm) 体重x3(kg) 149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.7 69.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.0 38.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5 例2 下表是10位学生的身高 、胸围 、体重 的数据。 对此进行主成分分析。 1. 求样本均值和样本协方差矩阵 2. 求解协方差矩阵的特征方程 3.解得三个特征值 和对应的单位特征向量: 4. 由此我们可以写出三个主成分的表达式: 5. 主成分的含义 F1表示学生身材大小。 F2反映学生的体形特征 三个主成分的方差贡献率分别为: 前两个主成分的累积方差贡献率为: 量纲不同,用相关阵计算主成分的步骤: 1、原始数据标准化 2、计算样本协差阵或相关系数矩阵R 3、求R的非零特征根及对应的标准正交特征向量 4、? 求出主成分 (i=1,2, …P)? 根据累计方差贡献率大于等于80%,85%,90%等,确 定选取主成分个数。结合专业知识将各主成分给出恰当的解释,并运用其来判断样品的特性。 变量的标准化: 由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响, 例如: X1表年收入,从万元到百万元变化, X2表净收入与总资产之比,从0.01到0.60变化, 那么X1的方差的绝对量将远远大于X2的方差, 这样主成分会过于照顾方差大的变量,为使主成分能均等地对待每一个原变量,应将原变量作标准化处理. 例1 对全国30个省市自汉区经济发展基本情况的八项指标作主成分分析,原始数据如下: ? GDP X1 居民消费水平X2 固定资产投资X3 职工平均工资X4 货物周转 量X5 居民消费价格指数X6 商品零售价格指数X7 工业总产 值X8 北京 天津 河北 山西 内蒙 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 1394.89 920.11 2849.52 1092.18 832.88 2793.37 1129.2 2014.53 2462.57 5155.25 3524.79 2003.58 21
文档评论(0)