Pearson相关系数和Spearman秩相关系数介绍.docxVIP

Pearson相关系数和Spearman秩相关系数介绍.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

皮尔逊积矩相关系数(Pearson product-moment correlationcoefficient)

定义

在统计学中,皮尔逊积矩相关系数(Pearsonproduct-momentcorrelationcoefficient),有时也简称为PMCC,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)的,取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相关性的强弱,它是由KarlPearson在19世纪80年代从FrancisGalton介绍的想法基础发展起来的,但是发展后原想法相似但略有不同的,这种相关系数常被称为“Pearson的r”。

两个变量之间的皮尔逊积矩相关系数定义为这两个变量的协方差与二者标准差积的商,即

cov(X,Y) E(X??)(Y??)

X Y?XY? ?? ? ??

X Y

X Y X Y

上式定义了总体相关系数,一般用希腊字母ρ(rho)表示。若用样本计算的协方差和标准差代

?替总体的协方差和标准差,则为样本相关系数,一般用r表示:

?

n(X

n

i

?ni?1(X

?n

i?1

(X ?X)

i

2

?n

i?1

(Y ?Y)

i

2

X)(Y

i

?Y)

另外一个与上式等效的定义相关系数的公式是通过标准化以后变量均值的积定义的。假设样本

可以记为(X

i

,Y),则样本Pearson相关系数为

i

1 n ?X

?X??Y ?Y?

r? ? ? i

?? i ?

YXn?1i?1? s

Y

X

?? s ?

X?X

其中 i ,X和s

分别为标准化变量,样本均值和样本标准差。

s X

X

皮尔逊积矩相关系数的数学特性

不论是样本的还是总体的Pearson相关系数绝对值均小于等于1,相关系数等于1或-1时,所有数据的点都精确地落在一条直线上(为样本相关系数的情况),或是两变量的分布完全由一条直线支撑(为总体相关系数的情况)。Pearson相关系数具有对称性,即:corrcorr(X,Y)?corr(Y,X)。Pearson相关系数的一个关键的特性就是它并不随着变量的位置或是大小的变化而变化。也就是

说,我们可以把X变为a+bX,把Y变为c+dY,其中a,b,c和d都是常数,而并不会改变相互之间的相关系数(这点对总体和样本Pearson相关系数都成立)。

Pearson相关系数可以用原点矩的形式表示。因为

? ?E(X),?2

X X

?[E(X)?X]2

?E(X2)?E2(X),

对于Y也有相似的表达式。又

E[(X?E(X))E(Y?E(Y))]?E(XY)?E(X)E(Y)

于是式(1)可写为

? ? E(XY)?E(X)E(Y)

XY E(X2)?E2(X) E(Y2)?E2(Y)

上述形式对于样本的Pearson相关系数同样是可用的,有

?xy?nxy

n?xy??x?y

r ? ii ?

ii i i

xy (n?1)ss

n?x2?(?x)2 n?y2?(?y)2

xy i i i i

上式提供了一个非常简单的计算样本相关系数的算法,但是有时受数据的影响,可上式可能存在数值上的不稳定性。

相关系数取值范围为[-1,1]。取1时表示变量X和Y之间具有线性变化的关系,即Y随着X的增加而增加,而且所有的点都落在一条直线上。取-1时则是所有点落在一条直线上,但是变量Y随着X的增加而减小。相关系数值为0是表示变量之间没有线性相关关系。

更一般地,应该注意到,只要X

i

和Y落在各自均值的同一侧,那么(X

i i

X)(Y

i

?Y)就是大于0

的。也就是说,只要X

i

和Y同时趋近于大于或是同时趋近于小于他们各自的均值,那么它们的相关

i

系数为正。反之,当二者区于在相反的一边时,二者相关系数为负。

几种的(x,y)点即相应的x、y的相关系数。可以看出,相关反映线性关系分散程度和方向(第一行),但是不能反映线性关系时的斜率(第二行),也不能反映出非线性关系的许多方面(最底下一行)。注:图中第二行第四个小图的直线斜率是0,在这种情况下,相关系数是没有意义的,因为Y的方差是零。

几何解释

对于相对中心性的数据(例如,一组已经通过样本均值转换为均值为0

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档