- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个体间差异的计算方法汇总
参考资料:
《集体智慧编程》P35
个性化推荐系统的研究进展,刘建国等
基于协同过滤的个性化推荐算法研究,周张兰
距离和相似度度量,网站数据分析
蜗牛向前冲
2013年6月1 日星期六
一.背景:目的,应用场景
二.距离度量:欧氏(P)、曼哈顿(P)、切比雪夫(P)
三.相似度度量:余弦(P) 、调整余弦(P) 、皮尔逊(P) 、
Jaccard (P),说明
四.比较:结果,适用场景
注:P代表Python源码实现,测试字典为prefs = {a:{1:1,2:2},b:{1:4,2:5}}
2013-06-01 Saturday 2
目的:
计算个体间的差异,进而评价个体的相似性、类别。
应用场景:
数据分析:相关分析;
数据挖掘:分类算法和聚类算法,eg.K最近邻(KNN) ,K均值(K-
Means);
说明:
相似度是样本间相似程度的度量,亦称相似测度、近似系数,如
余弦相似度,夹角越小,相似度越大;
相异度,亦称相异测度、相异系数,如距离,距离越大,相异度
越大。
2013-06-01 Saturday 3
1. 欧氏距离:Euclidean Distance
用于衡量各点间的绝对距离
X 、Y必须是同一特征的不同值,如同是身高或同时体重
n=1,直线上两点的距离
n=2,二维坐标系中两点的距离
n=3,三维坐标系中两点的距离……
2013-06-01 Saturday 4
0.1907435698305462
#欧氏距离计算用户相似度
#欧氏距离=sqrt(sum(pow(xs-ys,2)))
#相似度=1/(1+欧氏距离)
def sim_distance(prefs,person1,person2):
si = {}
for it in prefs[person1]:
if it in prefs[person2]:
si[it] = 1
if len(si) == 0:
return 0
pSum = math.sqrt(sum(pow(prefs[person1][it]-prefs[person2][it],2)for it in si))
return 1.0/(1+pSum)
2013-06-01 Saturday 5
2. 曼哈顿距离:Manhattan Distance
将多个维度上的距离求和后的结果
如左图所示,绿线代表欧氏距离,
红线代表曼哈顿距离,蓝、黄线
代表等价的曼哈顿距离
2013-06-01 Saturday 6
#曼哈顿距离计算用户相似度 0.14285714285714285
#曼哈顿距离=sum|xi-yi|
#相似度=1/1+曼哈顿距离
def sim_manhatta
您可能关注的文档
最近下载
- 广东省广州市黄埔区2019~2020学年七年级上学期期末语文试题(含答案解析).pdf VIP
- “新质生产力”系列(八):八大新兴产业及九大未来产业巡礼.pptx VIP
- 教师阅读讲座.ppt
- 2024年山东省政府采购判断题真题最新(2024年12月20日整理)第11套.docx VIP
- 外墙涂料工程检验批质量验收记录.doc VIP
- 辞旧迎新展望未来国旗下演讲稿PPT.pptx
- 2024年山东省政府采购判断题真题最新(2024年12月20日整理)第19套.pdf VIP
- 2024年1月上海市春季高考数学试卷试题真题(含答案详解).pdf
- 2024年山东省政府采购判断题真题最新(2024年12月20日整理)第9套.docx VIP
- 供应商加税点开票分析.xls VIP
文档评论(0)