- 69
- 0
- 约1.44千字
- 约 3页
- 2017-06-08 发布于重庆
- 举报
对pearson相关性的理解
Pearson 相关系数
Pearson 相关系数介绍
pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的趋势。
当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。
用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。
协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致,也就是说如果其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,则协方差为负值。
其中u表示X的期望E X , v表示Y的期望E Y
由于pearson描述的是两组数据变化移动的趋势,所以在基于user-based的协同过滤系统中,经常使用。描述用户购买或评分变化的趋势,若趋势相近则pearson系数趋近于1,也就是我们认为相似的用户。
Pearson 相关系数的缺陷
直观的可以看出,pearson不适用于文本的相似性分析。
pearson存在以下3个问题: 以下图的数据作为测试用例
1. 未考虑重叠记录项的数量对相似度的影响
上表中,行表示用户(
您可能关注的文档
- 客户关系管理期末复习题及答案.doc
- 客户关系管理简答整理.doc
- 客户关系管理系统技术方案.doc
- 客户关系管理系统招标书.doc
- 客户关系管理资源习题解答项目五.doc
- 客户端IE8设置说明1.doc
- 客户化开发技术规范.doc
- 客户响应调度中心网运服务流程优化模板.docx
- 高雄地区高中教师灵性健康及其相关因素之研究 139 悲伤影响因素之.doc
- 客户服务满意度提升工程方案.docx
- 科技行情结束了吗?.docx
- 工控&电网25Q4&26Q1总结:工控进一步复苏,电网景气度保持.docx
- 寻找中国保险的Alpha系列之五:保险还要买多少红利?.docx
- 消费级AR眼镜系列报告(三):AR眼镜核心技术:光波导演进、材料革新与微显示升级.docx
- 北交所策略专题报告:掘金精细化育儿新需求:北交所母婴产业链的辅食、卫生用品与营养品机遇.docx
- 超高性能混凝土(UHPC)材料:在建筑幕墙中的应用.docx
- 环保行业周报:SAF价格创新高,UCO价格有望补涨.docx
- 国防军工行业投资策略:军贸与商业航天共振,静待新质战斗力订单催化.docx
- 计算机行业“一周解码”:豆包开启付费订阅测试,Anthropic发力C端,大模型商业化加速中.docx
- 传媒行业5月投资策略:关注AI应用叙事逻辑改善可能,把握游戏与IP潮玩底部机会.docx
最近下载
- 部编版五年级语文下册词语表看拼音写词语田字格日积月累.docx VIP
- 2025至2030FinFET技术行业产业运行态势及投资规划深度研究报告.docx
- 2025年安徽省中考数学试卷真题(含标准答案).pdf VIP
- 部编版六年级下册看拼音写词语.pdf VIP
- 老年人经络与穴位保健指南.pptx VIP
- (共21页PPT)课时9422武术散打直拳技术武术散打直拳技术.pptx VIP
- 部编版(统编版)六年级语文下册看拼音写词语(田字格)及日积月累含答案.pdf VIP
- 65岁老年人穴位保健.pptx VIP
- 热压成型机液压系统毕业设计说明书推荐.doc VIP
- 智慧物流ppt模板.pptx VIP
原创力文档

文档评论(0)