常见的从数据到结论(人民大学吴喜之教授)10典型相关.ppt

下载文档 降价啦

10
0
约5.37千字
约 32页
2018-11-06 发布于山东
举报
版权申诉
保障服务

常见的从数据到结论(人民大学吴喜之教授)10典型相关.ppt

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

常见的从数据到结论(人民大学吴喜之教授)10典型相关

两组变量的相关问题我们知道如何衡量两个变量之间是否相关的问题；这是一个简单的公式就可以解决的问题（Pearson相关系数、 Kendall’s t、 Spearman 秩相关系数。如果我们有两组变量，如何能够表明它们之间的关系呢？例子（数据tv.sav) 业内人士和观众对于一些电视节目的观点有什么样的关系呢？数据tv.sav是不同的人群对30个电视节目所作的平均评分。观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种，它们形成第一组变量；而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种，形成第二组变量。人们对这样两组变量之间的关系感到兴趣。例子（数据tv.sav) 业内人士和观众对于一些电视节目的观点有什么样的关系呢？数据tv.sav是不同的人群对30个电视节目所作的平均评分。观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种，它们形成第一组变量；而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种，形成第二组变量。人们对这样两组变量之间的关系感到兴趣。寻找代表如直接对这六个变量的相关进行两两分析，很难得到关于这两组变量之间关系的一个清楚的印象。希望能够把多个变量与多个变量之间的相关化为两个变量之间的相关。现在的问题是为每一组变量选取一个综合变量作为代表；而一组变量最简单的综合形式就是该组变量的线性组合。由于一组变量可以有无数种线性组合（线性组合由相应的系数确定），因此必须找到既有意义又可以确定的线性组合。典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量（和其他线性组合相比）之间的相关系数最大。典型变量假定两组变量为X1,X2…,Xp和Y1,Y2,…,Yq，那么，问题就在于要寻找系数a1,a2…,ap和b1,b2,…,bq，和使得新的综合变量（亦称为典型变量(canonical variable)）典型相关系数这里所涉及的主要的数学工具还是矩阵的特征值和特征向量问题。而所得的特征值与V和W的典型相关系数有直接联系。由于特征值问题的特点，实际上找到的是多组典型变量(V1, W1), (V2, W2),…，其中V1和W1最相关，而V2和W2次之等等，而且V1, V2, V3,…之间及而且W1, W2, W3,…之间互不相关。这样又出现了选择多少组典型变量(V, W)的问题了。实际上，只要选择特征值累积总贡献占主要部分的那些即可。软件还会输出一些检验结果；于是只要选择显著的那些(V, W)。对实际问题，还要看选取的(V, W)是否有意义，是否能够说明问题才行。至于得到(V, W)的计算，则很简单，下面就tv.sav数据进行分析。数学原理？计算结果第一个表为判断这两组变量相关性的若干检验，包括Pillai迹检验，Hotelling-Lawley迹检验，Wilks l检验和Roy的最大根检验；它们都是有两个自由度的F检验。该表给出了每个检验的F值，两个自由度和p值（均为0.000）。计算结果下面一个表给出了特征根(Eigenvalue)，特征根所占的百分比(Pct)和累积百分比(Cum. Pct)和典型相关系数(Canon Cor)及其平方(Sq. Cor)。看来，头两对典型变量(V, W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。计算结果对于众多的计算机输出挑出一些来介绍。下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量V1、V2和V3的系数，即典型系数(canonical coefficient)。注意，SPSS把第一组变量称为因变量(dependent variables)，而把第二组称为协变量(covariates)；显然，这两组变量是完全对称的。这种命名仅仅是为了叙述方便。这些系数以两种方式给出；一种是没有标准化的原始变量的线性组合的典型系数(raw canonical coefficient)，一种是标准化之后的典型系数(standardized canonical coefficient)。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。计算结果类似地，也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W2的系数：。例子结论从这两个表中可以看出，V1主要和变量hed相关，而V2主要和led及net相关；W1主要和变量arti及man相关，而W2主要和com相关；这和它