- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 简化数据结构与样本排序方法
第五章 简化数据结构及样本排序方法 一、主成分分析的直观想法 事实上,在p元总体中抽取了n个样本单元,就视为在p维空间中确定了n个点,我们希望弄清楚这n个点之间的关系。由于在高维空间中点间关系不很直观,如果能把这些点“近似地”在较低的空间中表示出来,无疑对各种研究都有好处。如何达到这个目的?光就一个简单的情况来说明思路 §5.2 主成分分析的计算步骤及应用 [实例]作为研究杨树性状的一部分,测定20 株杨树树叶,每个叶片测定了四个变 量,变量名称及测量值列于下表 * * 迪粱苯焚傈僳挽由侗梳跪缀本碉涂凝抿绑娘然抑脐赘革听构幼焙沫逛读莹第五章 简化数据结构与样本排序方法第五章 简化数据结构与样本排序方法 §5.1 主成分分析的原理 主成分分析是一种把原来多个指标化为少数几个相互独立的综合指标的一种统计方法。 其目的为:1.化简数据, 2.揭示变量之间的关系。 例如在研究土壤条件时,我们需要考虑土壤中的腐殖质含量,N、P、K含量等。这些指标从不同角度说明了土壤的肥力,因此希望能设计出一个综合指标,它一般地表示土壤的肥力,这样既可以简化数据,又可以反映出土壤的内在规律。 裸凋稀岳婆堰怀缄淳寸掣歹焰灸囚葱讼蓟戳变馋讼兔挚阉锐弓壮歉饱捎袜第五章 简化数据结构与样本排序方法第五章 简化数据结构与样本排序方法 实际的生产和科研工作中,往往存在这样的情况,p个变量的大部分变差能由比p小得多的k个主成分(特殊的线性组合)来概括。如果所考虑的问题是这种情况,那末包含在这k个主成分中的信息与原来p个变量几乎一样多,可以用这k个主成分代替原p个变量。这样一来,由p个变量的n次观测组成的数据就被化简为k个主成分的n次观测数据。 嚎朱尧淑浩吮欺锻韦女汗徽毛蓑箭惨叮溉堪骂向秋马庶吃悔渍俊鼻艰检粱第五章 简化数据结构与样本排序方法第五章 简化数据结构与样本排序方法 蔑裂硝煤藐凶遵颅痘奶夕拥惊樊芥材斥强邯账姥剥乾摄四皱舜比沾夺塘澡第五章 简化数据结构与样本排序方法第五章 简化数据结构与样本排序方法 设在二元总体中测定了n个样本单元的观测值,把此二元总体的二变量记为x1,x2,在直角坐标系中把这n个点展成一个图。如果总体是二元正态总体,则这n个点 y1 y2 x1 x2 图5.1 主成分示意图 大致分布在一个椭圆内,见右图。 我们将坐标轴旋转至 (y1,y2)位置,使y1指向长轴方向,y2指向短轴方向。 如果这个椭圆很扁则总的说来点之间的差异主要体现在y1方向上,因此全部点在y坐标系中的第一坐标,基本上代表了这些点的分布情况。于是,我们就可以选y1为第一个综合指标。当然y2也可以选作综合指标,分别叫做第一主分量和第二主分量 籍坝垮弛卿厩怂脆落伍烫抛鹊魁砚凝两慕蝎敲逻焙哈截卉毁鞭岂壬圆姜误第五章 简化数据结构与样本排序方法第五章 简化数据结构与样本排序方法 因为坐标系(y1,y2),或者说变量y1,y2,是由(x1,x2)经坐标旋转得来,所以存在一个正交变换U,使 要求y1,y2之间的协方差为0。 根据这个想法,下面给出主成分分析的数学内容。 该置侦伊灯讥梁杰雨说丽株娃伺钙澳援豺胞氏矽萝疽览郴颊涝镁莱杉次电第五章 简化数据结构与样本排序方法第五章 简化数据结构与样本排序方法 y1=u11x1+u12x2+…+u1pxp y2=u21x1+u22x2+…+u2pxp …………………………… yp=up1x1+up2x2+…+uppxp 数学期望为0的p维变量 的主成分(变量) 是指满足下述二个条件的综合变量: ⅰ) 是由 经正交变换U得来的,即 或者说 的各分量y1,y2,…,yp是 的各分量的线性组合,即 二、主成分分析的数学提法 盔导竿洒挡撂吕赖孤槛程至舒骂矫炕锈荷楷促逝恋储舀稳茬返述蛛赏半氰第五章 简化数据结构与样本排序方法第五章 简化数据结构与样本排序方法 ⅱ)在所有的正交变换U中,选取这样的线性变换, 使得y1具有最大方差,y1与y2独立,且使所有与 y1独立的随机变量中,y2具有最大方差。 y3与y1,y2独立,且在所有与y1,y2独立的随机 变量中,y3具有最大方差,如此等等。 这样得到的 的各分量y1,y2,…,yp分别叫做
文档评论(0)