- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 明可夫斯基距离: 范例 r = 1. 城市块 (曼哈顿, 出租车, L1 范数) 距离. 一个常见的例子是汉明距离, 它是两个二元向量之间不同的二进位个数 r = 2. 欧氏距离 r ? ?. “上确界” (Lmax 范数, L? 范数) 距离. 这是向量 (属性) 的任何分量之间的最大距离 不要将参数 r 与维数 (属性数) n 混淆, 所有这些距离都是对维数 n 定义的. * 明可夫斯基距离 距离矩阵 * 马氏距离 图中红点, 欧氏距离为 14.7, 马氏距离为 6. ?是输入数据 X 的协方差矩阵 * 马氏距离 协方差矩阵: B A C A: (0.5, 0.5) B: (0, 1) C: (1.5, 1.5) Mahal(A,B) = 5 Mahal(A,C) = 4 * 距离的一些普通性质 距离, 如欧氏距离, 有一些众所周知的属性. 非负性:d(p, q) ? 0 for all p and q and d(p, q) = 0 only if p = q. 对称性:d(p, q) = d(q, p) for all p and q. 三角不等式:d(p, r) ? d(p, q) + d(q, r) for all points p, q, and r. 其中 d(p, q) 是数据点 p 和 q 的距离(相异度). 满足这些性质的距离称为度量 * 距离的一些普通性质 相似度, 也有一些众所周知的性质. s(p, q) = 1 (or maximum similarity) only if p = q. s(p, q) = s(q, p) for all p and q. (对称性) 其中 s(p, q) 是数据点 p 和 q 的相似度. * 二元向量的相似度 p 和 q 是两个对象, 仅有二元属性。用下面的量计算相似度 M00 = p 取 0 且 q 取 0 的属性个数 M01 = p 取 0 且 q 取 1 的属性个数 M10 = p 取 1 且 q 取 0 的属性个数 M11 = p 取 1 且 q 取 1 的属性个数 简单匹配系数SMC和 Jaccard 系数 SMC = 值匹配数 / 属性数 = (M11 + M00) / (M01 + M10 + M11 + M00) J = 匹配数 / 不涉及 0-0 匹配的属性个数 = (M11) / (M01 + M10 + M11) * SMC 对比 Jaccard: 范例 p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1 M01 = 2 (the number of attributes where p was 0 and q was 1) M10 = 1 (the number of attributes where p was 1 and q was 0) M00 = 7 (the number of attributes where p was 0 and q was 0) M11 = 0 (the number of attributes where p was 1 and q was 1) SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7 J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0 * 余弦相似度 如果 d1 和 d2 是两个文档向量, 则 cos( d1, d2 ) = (d1 ? d2) / ||d1|| ||d2|| , 其中 ? 表示向量点积, || d || 是向量 d 的长度. 例子: d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 d1 ? d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = 0.3150
文档评论(0)