ch8 主成分分析2016.ppt

  1. 1、本文档共125页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ch8 主成分分析2016

第八章. 主成分分析 Principal Component Analysis;8.1 引言;在一个低维空间辩识系统, 要比在高维空间容易得多。;;两个特殊的情况;一张35?4 维的数据表, 你能立刻看见这些期刊 有什么特点吗?;;;;二. 数据系统简化的思想方法;数据系统简化的思想方法;; 样本点集合的重心:;二. 变量集合 ;协方差阵 ;8.3 数据的标准化处理 ;(二)“压缩”处理(无量纲处理) ;危害:量纲不同,有歪曲数据变异方向作用。 区分:假变异——本质变异 消除量纲的处理: (1)压缩处理 : 例: **性质: 压缩处理后的变量方差恒等于1。 ;2. 标准化处理:中心化——压缩 性质: g*=0 (均值为0) sj* =1, j=1,2,…, p ( 方差等于1 ) . ;对于标准化数据表: (1)变量方差均等于1 (2)相关系数矩阵 = 协方差矩阵 ;(三) 复习:直角坐标系 ???于Rp中任意一个标准正交基: ; 8.4 PCA的算法 ; 二. PCA的计算方法(一般情况下) ;;三、主成分的统计特征 ;总结:PCA算法的输入与输出 ;总结:经过主成分分析;8.5 PCA的辅助分析技术; 形象地看: 方差: 注意: 所以,定义“累计贡献率”: ;2. 、如何选取合适精度的u1,…,um 。 根据累计贡献率可以确定所要选取的成分的个数。 (2)若希望Qm在80%左右,应选取 个主成分。 一些科技问题的累计贡献率要求在90%以上。但对复杂的社会科学、行为科学或经济学中的数据,能达到60%也可以考虑。 ;二. 主成分的命名 ;例②:中国城市经济分析: 1984: y1—综合水平, y2——工农业投入 1988: y1—综合水平,y2——外贸,科技。   由于开放程度不同,使中国各地区经济水平差距逐渐拉大。 2.方法:专业知识 + 数学手段 数学手段:研究 yh与 x1,…,xp 的相关关系。 对于标准化数据可以证明: ;;例.管理期刊分类评估 ;(2)相关圆图(Component Plot) ;;三. 主平面图;四. 判断“特异点”(ek) ;一般地,定义“ei 对Var(yh)的贡献”CTRh(i): CTR(i)过大解原因: (1)数据本身的特异性(BJ,SH, GZ, SZ, TJ) (2)数据统计上的错误 处理方法:除去这些特异点,可以提高分析精度,图示也更加清楚。 ;PCA将一个高维变量系统有效的降至 1 维 例1:Kendall [英] 评估英国各地区农业生产水平。48个郡,10种农作物:小麦(x1)、大麦(x2)、燕麦(x3)、土豆(x4)、菜豆(x5)、马铃薯(x6)、萝卜(x7)、饲料甜菜(x8)、临时牧场干草(x9)、永久牧场干草(x10)。(精度:47.6%) Y1= 0.39 x1+0.37 x2+0.39 x3+0.27 x4+0.22 x5 +0.30 x6+0.32 x7+0.26 x8+0.24 x9+0.34 x10 这里,第一主成分y1与 x1,…,x10 均正相关 所以,称 y1 为——“水平因子”,可用于评估排序。;1、“主成分”是否等同于“主要因素”? 例如:利用主成分分析构造评估函数 (1)样本点:n个有关专家 (2)变量:p个评估指标 问题:用第一主成分构造的评估指标完全不符合人们对实际情 况的认识。 原因:;;8.7 因子分析 ;学生代码;对学生成绩的数据进行主成分分析,得到下面的SPSS输出:;; 因子分析的结果( Varimax旋转后) 从SPSS的输出,得到因子f1和 f2与原来变量的相关系数;8.8 SPSS软件应用 ;;;;;;;;;;;;;;案例2、各地污染行业集中度;变量符号; 对 X1~X8 进行主成份分析,第一主成份(G1)的累计贡献率为 78.0%;;8.9 时序立体数据表分析(补充);;时序立体数据表分析内容;1985~1988,中国城市的国民生产总值平均年增长率为10.7%。 1989年国民生产总值比上年增长4%。;8.10 符号数据分析(补充);符号数据分析的基本输入单元-----符号数据表 ;;案例1: 中国股市特征分析 ;2、中信风格指数划分的股票风格分类;六个风格股票的每股收益(2000);六个风格板块的净资产利润率(2000) ; 4、股市中“风险—收益不对称”的现象 ; 中国股市与成熟股市存在显著差异 ;5、 不以经营业绩作为主要的 投资依据 ; 变量: 流通市值, 换手率, 收益率, 市盈率, 振幅;删除 15 个离群点

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档