第五章 简化数据结构和样本排序方法.pptVIP

第五章 简化数据结构和样本排序方法.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 简化数据结构和样本排序方法

第五章 简化数据结构及样本排序方法 ; 实际的生产和科研工作中,往往存在这样的情况,p个变量的大部分变差能由比p小得多的k个主成分(特殊的线性组合)来概括。如果所考虑的问题是这种情况,那末包含在这k个主成分中的信息与原来p个变量几乎一样多,可以用这k个主成分代替原p个变量。这样一来,由p个变量的n次观测组成的数据就被化简为k个主成分的n次观测数据。 ;一、主成分分析的直观想法;; 因为坐标系(y1,y2),或者说变量y1,y2,是由(x1,x2)经坐标旋转得来,所以存在一个正交变换U,使 要求y1,y2之间的协方差为0。 根据这个想法,下面给出主成分分析的数学内容。; y1=u11x1+u12x2+…+u1pxp y2=u21x1+u22x2+…+u2pxp …………………………… yp=up1x1+up2x2+…+uppxp;ⅱ)在所有的正交变换U中,选取这样的线性变换, 使得y1具有最大方差,y1与y2独立,且使所有与 y1独立的随机变量中,y2具有最大方差。 y3与y1,y2独立,且在所有与y1,y2独立的随机 变量中,y3具有最大方差,如此等等。 这样得到的 的各分量y1,y2,…,yp分别叫做 的第一,第二,…,第p主分量。 每个主分量都是 的各分量的线性组合,因此每个主分量都是一个综合变量。 ;下面来求这个正交变换 根据要求 的第j分量yj和第k分量yk应相互独立,并且若j<k时,则yj的方差应大于或等于yk的方差。所以 ;但因 所以 这是将矩阵 变为对角矩阵的公式,所以 是 的特征值, 的第j列向量或U的第j行向量是相应于 的单位特征向量。 这样找出的正交变换U满足 的各分量相互独立的要求,并且可以证明这个变换U使得y1具有最大方差,y2是所有与y1独立的随机变量中具有最大方差者,等等。即满足条件的要求。; 实际上,我们事先无法得到 ,而只能得到它的样本方差 。于是在应用中,我们是从样本方差矩阵 出发,求一个正交变换U将 变成对角矩阵,即U应满足: 对角矩阵Λ的对角线元素为λ1≥λ2≥…≥λp 的第j列向量,即U的第j行向量,就是 相应于λj的单位特征向量 由样本方差矩阵 出发求出的主分量,叫做样本主分量。将各第i个样本点 的坐标代入到正交变换式就可以得到各样本点的主分量样本点坐标。 ; 注意:按数学期望为零的要求,这里 应该是已经中心化了的数据。 按前面所说,若将n个样本点的主坐标组成一个样本资料矩阵 ,则它的各分量 相互独立且 的样本方差为λ1, 的样本方差为λ2,…,yp的样本方差为λp等等。 ; 因为λj是样本点在第j个主分量方向上的方差,它代表样本点在这个主分量方向上的分散程度。如果λj的值很小,说明样本点在坐标yj方向上分散程度很小这个主分量在分析样本数据时所起作用不大,因而可以忽略不计。 λj小到什么程度才算很小呢?为此定义 为第j个主分量的贡献率,或 ; 因为λj是按大小排列的,所以只要前m个(m≤p)主分量的累积贡献率 接近1,就可将余下的p-m个主分量舍去。这样一来,样本主分量就只余下m个了,从而达到在较低维空间中来表示本点的目的。 一般经验指出,累积贡献率大于0.8或0.85即可 ;四、小 结 至此,我们已经解决了主分量的计算与选取,并且达到了下述目的: ⅰ)可以设计m个综合指标y1,y2,…,ym(m≤P)使它们互不相关; ⅱ)原来p个变量的总方差s11+s22+…+spp近似等于这m个主分量的总方差λ1+λ2+…+λm,并使舍去的方差较小。在此m维空间中样本点的相对位置发生畸变(在此m维空间中)较小。 ;五、因子负荷量 通常取m,使得累积贡献率大于0.80或0.85,累积贡献率是表达m个主成分提取了x1,x2,…,xp的多少信息,但它没有表达某个变量xi提取了多少信息,为此还需要另一个概念,即因子负荷量的概念: 主成分yk与原分量x

文档评论(0)

xxj1658888 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档