- 1、本文档共57页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
10.1 引言 一. PCA的主要功能 在信息损失最小的前提下,对高维空间进行降维处理。 数据类型: 样本点?变量(定量变量) 10.3 数据的标准化处理 (一)“中心化”处理—平移变换 性质:不改变样本点集合中点与点的相互位置; (二) 标准化处理:中心化——压缩 性质: g*=0 (均值为0) sj* =1, j=1,2,…, p ( 方差等于1 ) . 对于标准化数据表: (1)变量方差均等于1 (2)相关系数矩阵 = 协方差矩阵 10.4 PCA的算法 一. PCA对数据系统做“最佳简化”的含意 PCA可在保证信息损失的前提下,经线性变换和舍弃一小部分信息,以少数线性无关的新综合变量取代原始采用的多维相关变量。 称: 为“主超平面”; 称: 为“主平面”; 输入—输出: (1)平移变换:把原点移到重心: (2)旋转变换,得到“主轴”:u1,u2,…,up?R p 其中,u1对应数据变异最大的方向,u2与u1 垂直,对应于数据变异第二大方向,… 所以u1,…,up是标准正交的,即: (3)求样本点ei 在 uh轴上的投影坐标 所有样本点在uh 上的投影构成“第h主成分 yh”: 在主成分中,Var(y1)→max 而 y2 ? y1,且Var(y2)是次大的…… (4)在 uh主轴上,ei 的投影坐标是yh(i) 第h主成分为: PAC算法推导: 不妨设变量 都是中心化的, 求第主成分 三. PCA的计算方法(一般情况下) (1)数据的标准化 为方便起见,仍记 。 (2)计算标准化数据表 的协方差矩阵V。 (3)求V的前m个特征值λ1≥λ2≥…≥λm0, 以及对应的特征向量: u1, u2, …,um (主轴) 它们是标准正交的: (4)在 uh主轴上,ei 的投影坐标是yh(i) 第h主成分为: 四、主成分的统计特征 第h主成分 ?yh 的均值为0。 ? yh的方差等于? h。 ? yj与yk 的协方差等于0: 总结:PCA算法的输入与输出 ①?1??2?……??m Var(y1),Var(y2),…,Var(ym) ②u1,u2,……, um?RP (主轴) ③y1,y2,……, ym?Rn (主成分) 总结:经过主成分分析, 10.5 PCA的辅助分析技术 一. 怎样选取精度合适的主超平面 1. m维主超平面的精度测量 主成分分析前,Xn?p数据中的全部变异信息: 主成分分析后保留的数据变差: Var(y1)=?1,Var(y2)= ?2, …, Var(ym)= ?m 形象地看: 方差: 注意: 所以,定义“累计贡献率”: 二. 主成分的命名 主成分y1,…,ym 是原变量x1,…,xp 的线性组合。原变量x1,…,xp 都有明确的物理含意。 问题: y1,…,ym的物理含意是什么? 1. 作用:指出影响系统结构的主要因素和主要特征。 例 ①:分析各阶层人员生活状态 发展中国家:y1——食品, y2——穿着 发达国家: y1——住宅, y2——旅游 以此可以划分不同社会阶层的生活档次。 (在这个方向,人们的生活水平差距最大) 例②:中国城市经济分析: 1984: y1—综合水平, y2——工农业投入国家。1988: y1—综合水平,y2——外贸,科技。 中国改革开放以来,由于开放程度不同,使中国各地区经济水平差距逐渐拉大。所以,加大开放力度,发展高科技产业是城市发展的重要工作方面。 2.方法:专业知识 + 数学手段 数学手段:研究 yh与 x1,…,xp 的相关关系。 对于标准化数据可以证明: 所以: 第一个主轴: 由此可见,仅差一个常量倍 : 是 y1与 x1,…,xp 的相关系数。 因此,可以通过观察 来确定y1的含意。 (2)相关圆图(Component Plot) 若 m = 2 三. 判断“特异点”(ek) “特异点”: 在PCA中,若有ek远离数据分布的平均水平, 可以用“点对主成分方差的贡献”来测量。 如: 则定义“ei
您可能关注的文档
最近下载
- VEICHI伟创 AC310系列变频调速器使用手册2021.06.pdf VIP
- 隧道施工课件.ppt VIP
- 第五届国家级新区经开区高新区班组长管理技能大赛备赛试题库-下(判断题汇总).docx VIP
- DB 6108T 53-2023 煤基固废调理剂修复沙化土地技术规范.docx VIP
- DB6108_T 52-2023 煤基固废调理剂修复盐碱地技术规范.docx VIP
- 行政人事部年终工作总结.pdf VIP
- 行政人事部年终工作总结.pptx VIP
- 第五届国家级新区经开区高新区班组长管理技能大赛备赛试题库-中(多选题汇总).docx VIP
- 化工厂物资明细表.xls VIP
- 第五届国家级新区经开区高新区班组长管理技能大赛试题库(浓缩500题).docx VIP
文档评论(0)