- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《两个多重相关变量组的统计分析数学毕业论文》
两个多重相关变量组的统计分析
摘 要
本文介绍两组相关变量问的典型相关与典型冗余分析的统计分析方法,以及在SAS软件包中如何实现,文中给出了一个典型的例子。
关键词:统计分析;典型相关;典型冗余分析
在实际问题中,经常遇到需要研究两组变量间的相关关系,而且每组变量中间常常存在多重相关性。比如工厂生产的产品质量指标与原材料、工艺指标间的相关关系;体育科研中运动员的体力测试指标与运动能力指标间的相关关系;经济领域中投资性变量与国民收入变量间的相关关系;教育学中学生高考各科成绩与高二年级各主科成绩间的相关关系;医学研究中患某种疾病病人的各种症状程度与用科学方法检查的一些指标间的相关关系等等。
研究两个变量组之间相关关系的常用方法是多元统计中的典型相关分析(参考[2]和 [3])。如果进一步研究这两组多重相关变量间的相互依赖关系,即考虑多对多的回归建模问题,除了最小二乘准则下的多对多回归分析、双重筛选逐步回归分析,以及提取自变量成分的主成分回归等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。关于多对多回归建模问题,我们将另文介绍。本文介绍典型相关与典型冗余分析,它是偏最小二乘回归的理论基础。
一 典型相关分析的基本思想与解法
第一组变量记为X= ,第二组变量记为Y= (不妨设p≤q)。典型相关分析借助于主成分分析提取成分的思想,从第一组变量X提取典型成分V (V是X1,…,Xp的线性组合);再从第二组变量Y提取典型成分W(W是Y1,…,Yq的线性组合), 并要求V和W 的相关程度达到最大。这时V和W 的相关程度可以大致反映两组变量X和Y的相关关系。
记p+q维随机向量Z=的协差阵∑=,其中∑11一是X的协差阵,∑22:是Y的协差阵,∑l2=∑21是X,Y的协差阵。我们用X和Y的线性组合
V=X和W=Y之问的相关来研究X和Y之间的相关。我们希望找到a和b,使ρ(V,W)最大。由相关系数的定义,
ρ(V,W)=
分析上式将发现:在使得V,W的相关达最大的同时, V和W的方差将达最小,这说明按此准则得到的典型成分V和W,对原变量组X和Y的代表性最差,它们无法更多地反映原变量组的变异信息。另方面因V,W任意线性组合的相关系数与 V,W 的相关系数相等,即使得相关系数最大的V=X和W=X并不唯一。故在典型相关分析解法中附加了约束条件:
Var(U) = ∑11a = 1 Var(V)= ∑22b = 1。
问题化为在约束条件Var(U)=1,Var(V)=1下,求a和b,使得ρ(U,V)= ∑l2b达最大。
定义l 设X=,Y=,p+q维随机向量的均值向量为 O,协差阵∑O(不妨设p≤q)。如果存在a1 = (al1,…,alp)和b1 = (b1l,…,b1q)使得
ρ1=ρ(1X, lY)=
则称X , Y是X,Y的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数。
如果存在和使得
①kX , kY和前面 k-1对典型变量都不关;
②Var(kX) = l,Var( kY) = 1;
③kX与 kY的相关系数 最大,
则称kX , kY是X,Y的第k对典型相关变量,它们之间的相关系数称为第k个典型相关系数。
已知p+q维总体Z的n次中心化观测数据阵为:
若假定,则协差阵∑的最大似然估计为
下面我们将从样本协差阵S出发,来讨论两组变量问的相关关系。
令为p×q阵,则p×q阵和q×q阵的非零特征根相同,且非零特征根均为正的。若rk(T)=rk(S12)=r≤p(因p≤q),非零特征根依次为 ≥≥…≥ O(且λiO,i=1,…,r)。记r阶对角阵D=diag(λi,…,λr)。利用p×q阵T的奇异值分解定理(参考[4])有
其中口(i=l,…,r)为对应于的单位正交特征向量;(i=1,…,r)为对应于的单位正交特征向量,且与满足关系式: 。令 ,容易验证与满足:
则为X,Y的第i对样本典型相关变量,为第i个样本典型相关系数。
二 典型相关系数的显著性检验
总体z的两组变量X=和Y=如果不相关,即Cov(X,Y)=
∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间的相关关系之前,应首先对假设H0:∑l2=0作统计检验,它等价于检验H0:ρl=0。
设总体,用似然比方法可导出检验H0:∑l2=0的似然比统计量Λ,利用矩阵行列式及其分块行列式的关系,可得出
其中p+q阶方阵s是∑的最大似然估计量,Sy分别是∑ij (i,j=1,2)的最大似然估计是的特征值。
统计量Λ的精确分布已由Hotelting(1936年)等人给出,但表达式
文档评论(0)