对pearson相关性的理解.docVIP

下载本文档

69
0
约1.44千字
约 3页
2017-06-08 发布于重庆
举报

对pearson相关性的理解.doc

对pearson相关性的理解

Pearson 相关系数 Pearson 相关系数介绍 pearson是一个介于-1和1之间的值，用来描述两组线性的数据一同变化移动的趋势。当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。用数学公式表示，皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。协方差（Covariance）：在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致，也就是说如果其中一个大于自身的期望值，另一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，则协方差为负值。其中u表示X的期望E X , v表示Y的期望E Y 由于pearson描述的是两组数据变化移动的趋势，所以在基于user-based的协同过滤系统中，经常使用。描述用户购买或评分变化的趋势，若趋势相近则pearson系数趋近于1，也就是我们认为相似的用户。 Pearson 相关系数的缺陷直观的可以看出，pearson不适用于文本的相似性分析。 pearson存在以下3个问题：以下图的数据作为测试用例 1. 未考虑重叠记录项的数量对相似度的影响上表中，行表示用户（

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

对pearson相关性的理解.docVIP