- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
相关分析和回归分析生活中人们常想知道两个变量之间的关系如出生率和教育程度的关系入学成绩和后来表现的关系吸烟与某种疾病的关系要想分析两变量间的关系就需要用到相关分析和回归分析这两种分析方法在统计学中都已涉及二者均可用于研究两变量间的不确定关系不同之处主要在于相关分析中两变量的地位是对称的而回归分析中则区分应变量与自变量本章所讲的相关和回归实际上是指秩相关和秩回归秩相关秩回归第六章相关和回归线性相关系数相关关系是变量间最重要的一种关系在传统统计方法中两随机变量之间的相关性是通过相关系数来度量的定义为
* * * * * 相关分析和回归分析 生活中人们常想知道两个变量之间的关系,如 出生率和教育程度的关系 入学成绩和后来表现的关系 吸烟与某种疾病的关系 …… 要想分析两变量间的关系,就需要用到相关分析和回归分析。这两种分析方法在统计学中都已涉及,二者均可用于研究两变量间的不确定关系,不同之处主要在于相关分析中两变量的地位是对称的,而回归分析中则区分应变量与自变量。 本章所讲的相关和回归,实际上是指秩相关和秩回归。 秩相关 1 秩回归 2 第六章 相关和回归 Pearson线性相关系数 相关关系是变量间最重要的一种关系。在传统统计方法中,两随机变量之间的相关性是通过相关系数来度量的。定义 为两变量间的相关系数。由于ρ(X, Y )未知,因而常用样本相关系数 来估计ρ(X, Y )。该统计量也是我们最常用的相关系数统计量,称为Pearson相关系数。 -1 r 1。其中,r 0表示X与Y正相关,r 0表示X与Y负相关,r = 0表示X与Y不相关(线性相关)。 |r| 0.3,微弱相关;0.3 |r| 0.5,低度相关;0.5 |r| 0.8,显著相关;|r| 0.8,高度相关 两变量不相关,则r = 0;但r = 0,只说明两变量不线性相关,不表示二者之间没有非线性相关关系 由于r只是ρ的估计值,故还需做统计检验。对Pearson相关系数的检验为 H0: ρ(X, Y ) = 0;H1: ρ(X, Y )≠0 一般用t检验法,在零假设下 若|t| tα,则拒绝零假设,认为两变量间有显著的相关关系。 【例6-1】P127世界168个地区每一千个五岁前儿童死亡人数(Y)和每十万个临产母亲死亡人数(X)的散点图。在利用原始数据所做的散点图中,X与Y的线性相关关系并不十分明显;但是将X和Y取对数后,其散点图的线性关系就更加明显了。 实际中经常遇到这样的情况,但是这样做却给问题的分析带来了不便,即分析之前需要考虑是否要对原始数据进行变换,如果要变换又需要进行何种变换。于是想到,如果可以从秩出发来分析两变量间的相关关系,那么任何保持数据次序不变的变换在本质上就没有区别了。这便是秩相关分析的出发点。 实践中常用的相关系数除了Pearson相关系数r外,还有Spearman秩相关系数rs和Kendall τ。严格说,传统相关系数度量的是X和Y之间的线性相关关系,但是非参数相关系数 rs 和Kendall τ则度量了更为广义的相关关系,这是因为秩不会被变量间的任何单调递增变换所改变。后面所说的相关是指这种广义的相关,而不是Pearson意义下的线性相关。 01 Spearman秩相关检验 Spearman秩相关系数 对一列数对(X1, Y1), (X2, Y2), ……, (Xn, Yn),要检验它们所代表的二元变量X和Y是否相关。以检验X与Y是否正相关为例进行分析,若两变量的确为正相关,说明随着X的增加Y也增加,即X与Y具有某种同步性。如果用Ri表示Xi在X中的秩,Si表示Yi在Y中的秩,则Ri与Si有同步性。这样一来,便将数据之间的相关性转化成了秩之间的相关性。类似Pearson相关系数r,Spearman秩相关系数定义为 注意到, , ,代入上述公式,可将Spearman秩相关系数简化为 其中, 。 公式中,若各 均较小,说明Ri与Si相差不大,即两个样本有大致相同的变化趋势,故X与Y可能正相关,此时rs接近于1;反之,若各 均较大,说明Ri与Si相差较大,即两个样本有大致相反的变化趋势,故X与Y 可能负相关,此时rs接近于-1。 在X或Y样本有结时,应用平均秩,相应的Spearman统计量也要做修正 其中, , ,uj 和vj 分别为X和Y各个结的观测值数目。 * * * * *
原创力文档


文档评论(0)