- 1、本文档共125页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ch8 主成分分析2016
第八章. 主成分分析Principal Component Analysis;8.1 引言;在一个低维空间辩识系统,要比在高维空间容易得多。;;两个特殊的情况;一张35?4 维的数据表,
你能立刻看见这些期刊
有什么特点吗?;;;;二. 数据系统简化的思想方法;数据系统简化的思想方法;;
样本点集合的重心:;二. 变量集合;协方差阵
;8.3 数据的标准化处理;(二)“压缩”处理(无量纲处理);危害:量纲不同,有歪曲数据变异方向作用。
区分:假变异——本质变异
消除量纲的处理:
(1)压缩处理 :
例:
**性质: 压缩处理后的变量方差恒等于1。
;2. 标准化处理:中心化——压缩
性质:
g*=0 (均值为0)
sj* =1, j=1,2,…, p ( 方差等于1 )
.
;对于标准化数据表:
(1)变量方差均等于1
(2)相关系数矩阵 = 协方差矩阵
;(三) 复习:直角坐标系
???于Rp中任意一个标准正交基:
;8.4 PCA的算法; 二. PCA的计算方法(一般情况下);;三、主成分的统计特征;总结:PCA算法的输入与输出;总结:经过主成分分析;8.5 PCA的辅助分析技术;
形象地看:
方差:
注意:
所以,定义“累计贡献率”:
;2. 、如何选取合适精度的u1,…,um 。
根据累计贡献率可以确定所要选取的成分的个数。
(2)若希望Qm在80%左右,应选取 个主成分。
一些科技问题的累计贡献率要求在90%以上。但对复杂的社会科学、行为科学或经济学中的数据,能达到60%也可以考虑。
;二. 主成分的命名;例②:中国城市经济分析:
1984: y1—综合水平, y2——工农业投入
1988: y1—综合水平,y2——外贸,科技。
由于开放程度不同,使中国各地区经济水平差距逐渐拉大。
2.方法:专业知识 + 数学手段
数学手段:研究 yh与 x1,…,xp 的相关关系。
对于标准化数据可以证明:
;;例.管理期刊分类评估;(2)相关圆图(Component Plot);;三. 主平面图;四. 判断“特异点”(ek);一般地,定义“ei 对Var(yh)的贡献”CTRh(i):
CTR(i)过大解原因:
(1)数据本身的特异性(BJ,SH, GZ, SZ, TJ)
(2)数据统计上的错误
处理方法:除去这些特异点,可以提高分析精度,图示也更加清楚。
;PCA将一个高维变量系统有效的降至 1 维
例1:Kendall [英] 评估英国各地区农业生产水平。48个郡,10种农作物:小麦(x1)、大麦(x2)、燕麦(x3)、土豆(x4)、菜豆(x5)、马铃薯(x6)、萝卜(x7)、饲料甜菜(x8)、临时牧场干草(x9)、永久牧场干草(x10)。(精度:47.6%)
Y1= 0.39 x1+0.37 x2+0.39 x3+0.27 x4+0.22 x5
+0.30 x6+0.32 x7+0.26 x8+0.24 x9+0.34 x10
这里,第一主成分y1与 x1,…,x10 均正相关
所以,称 y1 为——“水平因子”,可用于评估排序。;1、“主成分”是否等同于“主要因素”?
例如:利用主成分分析构造评估函数
(1)样本点:n个有关专家
(2)变量:p个评估指标
问题:用第一主成分构造的评估指标完全不符合人们对实际情
况的认识。
原因:;;8.7 因子分析 ;学生代码;对学生成绩的数据进行主成分分析,得到下面的SPSS输出:;; 因子分析的结果( Varimax旋转后)从SPSS的输出,得到因子f1和 f2与原来变量的相关系数;8.8 SPSS软件应用 ;;;;;;;;;;;;;;案例2、各地污染行业集中度;变量符号; 对 X1~X8 进行主成份分析,第一主成份(G1)的累计贡献率为 78.0%;;8.9 时序立体数据表分析(补充);;时序立体数据表分析内容;1985~1988,中国城市的国民生产总值平均年增长率为10.7%。
1989年国民生产总值比上年增长4%。;8.10 符号数据分析(补充);符号数据分析的基本输入单元-----符号数据表
;;案例1: 中国股市特征分析 ;2、中信风格指数划分的股票风格分类;六个风格股票的每股收益(2000);六个风格板块的净资产利润率(2000);4、股市中“风险—收益不对称”的现象;中国股市与成熟股市存在显著差异;5、 不以经营业绩作为主要的投资依据 ;
变量: 流通市值, 换手率, 收益率, 市盈率, 振幅;删除 15 个离群点
您可能关注的文档
- 1210650109李贺 锅炉原理PPT.ppt
- 1 沉雄瑰丽中国青铜艺术.ppt
- 16 麻醉手术期间病人容量治疗.ppt
- 14水环境中微生物化学过程.pptx
- 15013九上第18课 美国南北战争.ppt
- 14 周 做一位感恩人.ppt
- 14-15.了解丝绸之路与隋朝大运河概况.ppt
- 1995911085造价员精讲班基础知识(习题).ppt
- 18个文言虚词逐一落实.ppt
- 1平凡世界阅读推荐.ppt
- 小学体育教育对学生身体素质的影响教学研究课题报告.docx
- 小学生心理健康教育的有效方式教学研究课题报告.docx
- 小学科学课堂评价体系的构建与应用教学研究开题报告教学研究课题报告.docx
- 现场教学与传统教学的比较研究教学研究课题报告.docx
- 高中语文教学中文本解读的多元化方法教学研究课题报告.docx
- 家校互动对学生心理健康的作用研究教学研究课题报告.docx
- 跨学科课程对学生综合素质提升的作用教学研究课题报告.docx
- 高中生读写能力的提升策略探讨教学研究课题报告.docx
- 真实情境下的问题解决能力培养研究教学研究课题报告.docx
- 高中音乐教育对审美能力的提升效果分析教学研究课题报告.docx
文档评论(0)