协方差和相关系数的探讨.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
协方差和相关系数的探讨 摘要:协方差和相关系数作为两个随机变量间相互关系的两种度量方式,是两个重要的数字特征。然而在大多数教材中[1][2][3][4] ,要么直接引入,要么稍加说明就引入,这使得学生不可能充分理解、掌握,只能靠死记硬背。本文从直观入手,由浅到深地介绍协方差、相关系数。 关键词: 协方差,相关系数,线性关系,直观意义 本人在从教的几年中,给学生上了几轮的概率统计课(所用教材有[1,2,3,4])后,发现协方差与相关系数的引入和介绍学生不怎么好理解。这主要是有的教材未加说明就直接引入[2][3],有的教材也只是稍加说明而已[1][4],如只解释相关系数的直观意义,而对协方差的直观意义只字不提。其中协方差的引入大多是通过随机变量的独立性来引入的。即当X与Y独立时,有E[(X-EX)(Y-EY)] =0,当E[(X-EX)(Y-EY)]≠0时,则认为X与Y不独立,从而它们之间存在着某种关系,故可用E[(X-EX)(Y-EY)]来表示它们之间的这种关系。而这种关系到底是怎样的一种关系呢?或未加说明,或直接给出。下面主要探讨这种关系,主要参考[5][6]。 一、协方差的直观意义 XY首先必须假设X与Y都是定义在同一样本空间上的随机变量,否则研究它们之间的相互关系就没有意义,从而可将X和Y组成二元有序组(X,Y),每做一次实验后,它的取值就是平面上的一个点,再将实验独立重复n次,即可得到平面上的n个点,就不妨设这n个点的坐标为(x1,y1),(x2,y2),…,(xn,yn),随着实验次数的增多,这n个点就会出现某种的统计规律性(由大数定律可得)。如果将这n个点在平面上描出来,就可以得到一个“散点图”,从散点图上,就可大致看出X与Y 之间的关系。而 X Y XXYXXY XX YX X Y (a)X与Y正线性相关 (b) X与Y负线性相关 (c) X与Y线性无关 图1 散点图中形状的三种 由数学期望的定义可知,EX和EY分别表示X和Y取值的平均值。令,此坐标变换相当于将X,Y坐标变换到X’,Y’坐标,坐标中心变成(EX,EY)。图1中三个图形新的坐标如图2。 XYX’Y’XY X Y X’ Y’ X Y X’ Y’ X Y Y’ X’ (a)X’与Y’正线性相关 (b) X’与Y’负线性相关 (c) X’与Y’线性无关 图2 新坐标轴在原坐标轴中的位置 从图2中可看出,通过坐标变换将原坐标变换成新的坐标,而新坐标仍然保持着线性性,且有以下三个结论: 由图2(a)知,原坐标中的点经变换后,大多都落在新坐标的一、三象限,从而(X-EX)(Y-EY)的取值大多为正,故其平均取值E[(X-EX)(Y-EY)]也为正,因此,当X与Y有较强的正线性关系时,E[(X-EX)(Y-EY)]的取值也同为正且较大,反之亦成立; 由图2(b)知,原坐标中的点经变换后,大多都落在新坐标的二、四象限,从而(X-EX)(Y-EY)的取值大多为负,故其平均取值E[(X-EX)(Y-EY)]也为负,因此,当X与Y有较强的负线性关系时,E[(X-EX)(Y-EY)]的取值也同为负且其绝对值较大,反之亦成立; 由图2(c)知,原坐标中的点经变换后,比较均匀地落在新坐标的一、二、三、四象限,从而(X-EX)(Y-EY)的取值可正可负,故其平均取值E[(X-EX)(Y-EY)]比较接近于0,因此,当X与Y有线性无关系时,E[(X-EX)(Y-EY)]的取值接近于0,反之亦成立。 由此可见,E[(X-EX)(Y-EY)]确实可以度量X与Y之间的线性关系,当E[(X-EX)(Y-EY)]为正值时,X与Y是正线性相关的,且E[(X-EX)(Y-EY)]的值越大时,其线性相关性就越强;当E[(X-EX)(Y-EY)]的取值为负时,X与Y是负线性相关的,且|E[(X-EX)(Y-EY)]|的值越大时,其线性相关性也就越强;当E[(X-EX)(Y-EY)]的取值接近于0时,X与Y就表现出较弱的线性相关性,且|E[(X-EX)(Y-EY)]|的值越接近于0时,其线性相关性也就越弱。而E[(X-EX)(Y-EY)]正是所定义的协方差,记为Cov(X,Y),即Cov(X,Y)= E[(X-EX)(Y-EY)]。 需要指出的是在这里所研究的只是X与Y的关系中的一种,即最简单也是最常见的线性关系,而X与Y的关系是多种多样的。 二、相关系数的意义 上面从直观上给出了协方差的意义,虽然可以从它取值的大小来判别两个变量X与Y相关性的强弱,但是它存在一个明显的缺点,那就是它取值的大小与单位有关,当变量用不同的单位时,就会得到

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档