Pearson相关系数与Spearman秩相关系数介绍.doc

Pearson相关系数与Spearman秩相关系数介绍.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Pearson相关系数与Spearman秩相关系数介绍.doc

皮尔逊积矩相关系数(Pearson product-moment correlation coefficient) 1 定义 在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient),有时也简称为PMCC,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)的,取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相关性的强弱,它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的,但是发展后原想法相似但略有不同的,这种相关系数常被称为“Pearson的r”。 两个变量之间的皮尔逊积矩相关系数定义为这两个变量的协方差与二者标准差积的商,即 上式定义了总体相关系数,一般用希腊字母ρ(rho)表示。若用样本计算的协方差和标准差代替总体的协方差和标准差,则为样本相关系数,一般用r表示: 另外一个与上式等效的定义相关系数的公式是通过标准化以后变量均值的积定义的。假设样本可以记为,则样本Pearson相关系数为 其中,和分别为标准化变量,样本均值和样本标准差。 2 皮尔逊积矩相关系数的数学特性 不论是样本的还是总体的Pearson相关系数绝对值均小于等于1,相关系数等于1或-1时,所有数据的点都精确地落在一条直线上(为样本相关系数的情况),或是两变量的分布完全由一条直线支撑(为总体相关系数的情况)。Pearson相关系数具有对称性,即:corr。 Pearson相关系数的一个关键的特性就是它并不随着变量的位置或是大小的变化而变化。也就是说,我们可以把X变为a+bX,把Y变为c+dY,其中a,b,c和d都是常数,而并不会改变相互之间的相关系数(这点对总体和样本Pearson相关系数都成立)。 Pearson相关系数可以用原点矩的形式表示。因为 ,, 对于Y也有相似的表达式。又 于是式(1)可写为 上述形式对于样本的Pearson相关系数同样是可用的,有 上式提供了一个非常简单的计算样本相关系数的算法,但是有时受数据的影响,可上式可能存在数值上的不稳定性。 相关系数取值范围为[-1,1]。取1时表示变量X和Y之间具有线性变化的关系,即Y随着X的增加而增加,而且所有的点都落在一条直线上。取-1时则是所有点落在一条直线上,但是变量Y随着X的增加而减小。相关系数值为0是表示变量之间没有线性相关关系。 更一般地,应该注意到,只要和落在各自均值的同一侧,那么就是大于0的。也就是说,只要和同时趋近于大于或是同时趋近于小于他们各自的均值,那么它们的相关系数为正。反之,当二者区于在相反的一边时,二者相关系数为负。 几种的(x,y)点x、y的相关系数。,相关反映线性关系和方向(第一行),但),也非线性关系的许多方面()。注:在这种情况下,相关系数是的,因为Y的方差是零。 几何解释 对于相对中心性的数据(例如,一组已经通过样本均值转换为均值为0的数据),相关系数可以看做是由两随机变量样本绘出的两个向量之间夹角的余弦值。 有些学者则比较倾向于非中心性(费皮尔逊兼容)的相关系数。以下通过一个例子比较二者之间的差异。 假设有5个国家,国民生产总值分别为10亿美元、20亿美元、30亿美元、50亿美元和80亿美元,而贫困人数占总人口的比例分别为11%、12%、13%、15%和18%。则可令X = (10,20,30,50,80),Y = (0.11,0.12,0.13,0.15,0.18)。 有一般的计算两个向量之间的角度的过程(点乘)可得非中心性相关系数为: 应该注意到,上述数据是特意从完全线性相关的线性函数Y=0.10+0.001X中挑选出来的,所以Pearson相关系数应该精确地为1。将数据中心化(将X减去E(X)=38,Y减去E(Y)=0.138),可得X’=(-28,-18,-0.8,12,42),Y’=(-0.028,-0.018,-0.08,0.012,0.042),并有 跟期望的一样。 相关系数大小与相关性大小的关系 许多学者都提出了通过相关系数大小判断变量相关性的标准。但是正如?0.09~0.00.0~0.09 ?0.3~?1 0.1~0.3 ?0.5~?3 0.3~0.5 ?1.0~?5 0.5~1.0 也是没有意义的。在一些实际应用中,例如那些涉及数据在尾部比较集中的情况,考虑这点就是很重要的。但是,相关系数的存在性通常不是我们关注的焦点,因为一般只要分布是有界的,那么就可以被定义。 大样本性 在二元正态分布中,若已知变量的边缘分布的均值和标准差,那么由Pearson相关系数就可以完全确定该分布的特性。但是对于其它的二元分布,情况就有所不同。然而,不论变量之间的联合概率密度函数是不

文档评论(0)

dmz158 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档