- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
专题二 降维算法知识内容.ppt
专题二 降维算法
1 主成分分析
(Principal Component Analysis,PCA)
2 线性判别分析
(Linear Discriminant Analysis, LDA),
内容
研究背景
基本知识介绍
经典方法介绍
总结讨论
研究背景
问题的提出
地理系统是多要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?
研究背景
降维的动机
原始观察空间中的样本具有极大的信息冗余
样本的高维数引发分类器设计的“维数灾难”
数据可视化、特征提取、分类与聚类等任务需求
一般框架
一个经典的例子
在进行祝成分分析后后,竟然以97.4%的精度,用三个变量取代了原来的17个变量。
线性降维方法
线性降维
通过特征的线性组合来降维
本质上是把数据投影到低维线性子空间
线性方法相对比较简单且容易计算
代表方法
主成分分析(PCA)
线性判别分析(LDA)
多维尺度变换(MDS)
线性降维方法
主成分分析(PCA) [Jolliffe, 1986]
降维目的:寻找能够保持采样数据方差的最佳投影子空间
求解方法:对样本的散度矩阵进行特征值分解, 所求子空间为经过样本均值, 以最大特征值所对应的特征向量为方向的子空间
线性降维方法
线性判别分析(LDA) [Fukunaga, 1991]
降维目的:寻找最能把两类样本分开的投影直线,使投影后两类样本的均值之差与投影样本的总类散度的比值最大
求解方法:经过推导把原问题转化为关于样本集总类内散度矩阵和总类间散度矩阵的广义特征值问题
11
线性降维方法比较
主成分分析 (PCA) [Jolliffe, 1986]
线性判别分析 (LDA) [Fukunaga, 1991]
线性降维方法的不足
原始数据无法表示为特征的简单线性组合
比如:PCA无法表达Helix曲线流形
一、主成分分析的基本原理
假定有n个地理样本,每个样本共有p个变量,构成一个n×p 阶的地理数据矩阵
主成分分析的基本原理
当p 较大时,在p 维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。
定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标
系数lij的确定原则:
① zi与zj(i≠j;i,j=1,2,…,m)相互无关;
② z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;
……
zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差最大者。
则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 ,…, p)在诸主成分zi(i=1,2,…,m)上的荷载 lij( i=1,2,…,m; j=1,2 ,…,p)。
从数学上容易知道,从数学上可以证明,它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。
二、计算步骤
(一)计算相关系数矩阵
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:
(二)计算特征值与特征向量:
① 解特征方程 ,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ;
② 分别求出对应于特征值 的特征向量
,要求 =1,即 ,其中 表示向量 的第j个分量。
③ 计算主成分贡献率及累计贡献率
▲贡献率:
▲累计贡献率:
一般取累计贡献率达85—95%的特征值
所对应的第一、第二、…、第m(m≤p)个主成分。
④ 计算主成分载荷
原创力文档


文档评论(0)