- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[协方差和相关系数
如何通俗易懂地解释「协方差」与「相关系数」的概念?其背后的原理为何可以达到衡量「相关性」的效果?1 条评论?分享5 个回答傅渥成?,统计物理 / 复杂系统 / 生物物理184?人赞同看到这个问题,马上想到我那天回答的另一个问题了。我们在刻画这个世界之间的各种关系的时候,常常会希望度量“距离”:对于空间中的两个点,我们可以用勾股定理定义平方和作为距离;对于两个二进制序列,或者两段基因序列,我们可以用汉明距离来度量二者之间的差异,作为“距离”;那么假如对于两个复杂的量(描述这两个量可能用很多很多的参数),那么这时候怎样度量二者之间的“相关性”呢?按照真正的逻辑顺序来讲,应该是这样讲的:?把所有的这些复杂的参数排成一列,就拍成了一个向量,很多很多的这样的向量构成了一个向量空间。向量空间里面的东西没有“距离”这样的概念,对于一个向量空间里面的向量,甚至没有“长度”这样的概念,因为向量空间只是一个代数结构,没有度量或者拓扑的概念在其中,那这时候怎样度量向量的长度来呢?接下来,又怎样来确定两个向量之间的“距离”呢?对于一个可以定义距离的结构(度量空间),我们需要有一些要求,认为满足这些要求的一个函数就可以认为是距离,例如我们要求:A到B的距离等于B到A的距离,A到A的距离等于0,两个点之间的距离非负,三角不等式。那么对于一个向量空间,怎样可以最自然地给它一个“范数”,使得它有可能推广到一个距离空间(度量空间)呢?最自然的方法就是引入“内积”的概念了,通过内积的运算,得到内积空间,再用内积来定义距离(范数),于是也就有可能得到距离空间。?为什么内积空间可以变成一个度量空间呢?这就是我在“学一门课的时候,要注意理解和思考,不要一味的背公式,背习题是什么意思?”这个问题里面,我反复用到了 Cauchy 不等式,目的也正在此。Cauchy 不等式为我们提供了判断两个向量是否相关的方案:(a?b)/|a||b| 可以作为度量相关性的一个函数,而它的直观意义是什么,请看下面。—————————————这是一条分割线——————————————好了,截止到目前,都是我认为一个比较正常,且不算太难的一种解释的方法,如果觉得这样理解起来还有困难,那么接下来就只能用能让中学生听懂的,最直观的方法了,但是我并不喜欢这样直观的讲法,因为这个讲法的逻辑是很混乱的,事先就引入了很多不应该过早引入的概念,不过为了帮助理解,也就这样吧:有两个向量,我们希望定义它们是不是相关。一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就距离小,夹角大,就距离大。但是怎样来计算夹角呢?为了让这种计算可行,我们要选一种恰当的三角函数来算。正弦函数的不太好的一个原因是因为加上个90°,正弦算出来得到的结果一样,而两个向量的夹角是30°还是120°这是完全的两码事,此外,正弦函数也不适合推广到高维度向量的计算中的“两两比较”。那么考虑用余弦吧,这个可以很方便地区分30°和120°,而且还有一个好处——余弦的计算非常简单,用内积就可以计算了,中学数学中就学过: (x1,y1)?(x2,y2)=x1x2+y1y2,这就是内积,你要是喜欢,也可以把这个叫做“协方差”。但是这个内积的定义很奇怪哎?要是两个向量本身就长,那这个也算不出夹角来,所以再要除以两个向量本身的长度,即,夹角:cos a,?b =(a?b)/|a||b|;这样,那么两个量是不是相关,怎么来判断?就用余弦的大小就可以了,我们把两个向量的夹角的余弦,就叫做“相关系数”,正如上面的式子所指出的,写开了就是:分子上面的就是一个内积的计算,也就是前面我说的“协方差”,分子下面是两个勾股定理乘起来,是两个向量的长度。如果两个向量平行,则它们夹角的余弦(也就是“相关系数”)就等于1或者-1,同向的时候是1,反向的时候就是-1。如果两个向量垂直,则夹角的余弦就等于0,说明二者不相关。再写我都不好意思了,我觉得这样应该很容易就可以懂了……184?编辑于 2013-03-15?37 条评论?感谢?更多???作者保留权利Ger Young?,EE2CS 摄影/篮球/音乐爱好者65?人赞同协方差、相关系数是紧密相关的,二者都是用来描述两个连续变量的线性相关关系。本答案先简要阐述相关概念,再具体阐述几何上的理解,最后提出一点个人看法。简要阐述如下:一.协方差只表示线性相关的方向,取值正无穷到负无穷。也就是说,协方差为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。注意:协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。二.相关系数不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。也就是说,相关系数为正值,说明一个变量变大另一个变量也变大;取负值说
文档评论(0)