对象间的相似性详解.pptxVIP

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对象间的相似性详解

对象间的相似性度量 vicky 对象间的相似性度量 相似性 余弦夹角 简单匹配系数与JACCARD系数 广义JACCARD系数 相关系数 相异度 距离 归一化的相似性=1-归一化的相异度 变量的标准化 计算平均绝对偏差 其中 计算标准化的度量值(z-score) 使用平均绝对偏差往往比使用标准差更具有健壮性 4 夹角余弦 简单匹配系数和JACCARD系数 对称的二元变量 不对称的二元变量 常将出现概率较小的状态编码为1,将另一种状态编码为0 两个都取值为0的情况成为负匹配,被认为不重要 简单匹配系数: R=(a+d)/(a+b+c+d) JACCARD系数:J=a/(a+b+c) 6 广义JACCARD系数 7 相关系数 欧式距离与绝对距离 欧式距离 绝对距离(Manhattan距离) Minkowski距离 其中 Minkowski距离又称 距离, 距离即欧式距离, 距离即绝对距离。 切比雪夫距离 Chebyshev距离(切比雪夫距离) Chebyshev距离是Minkowski距离当 时的极限。 方差加权距离 对标准化数据 计算欧式距离时,即是方差加权距离。 马氏距离 其中 是由各变量计算得到的协方差矩阵。 考虑了变量之间的相关性。 针对二元变量的距离 对称的二元变量 不对称的二元变量 常将出现概率较小的状态编码为1,将另一种状态编码为0 两个都取值为0的情况成为负匹配,被认为不重要 14 二元变量距离和相似性练习 某个数据集现有10个二元变量,两个观测对象X和Y的取值如下:X=0101001101 y= 0001111001 如果10个二元变量为对称二元变量,对象X和Y之间的距离是多少?简单匹配系数是多少? 如果10个二元变量为非对称二元变量,对象X和Y之间的距离是多少?JACCARD系数是多少? 针对标称变量的距离 1. 简单匹配方法 m: 匹配的数目, 即对象i和j取值相同的变量的数目 P:全部标称变量的数量 2. 对每个标称变量的每个取值创建一个新的二元变量,并用非对称二元变量的计算方法计算标称变量的相异度 红 绿 蓝 黄 取值 0 1 0 0 绿 0 0 1 0 蓝 …… 针对序数型变量的距离 1.以顺序代替原值 设序数变量f的第i个对象的值为xif,则用它在可能取值中的顺序rif 代替xif (假设f有Mf个有序状态) 2. 将每个rif映射到[0,1]区间 3. Zif视作数值变量计算距离 职称(4档):XI :助教 XJ :副教授 ——? XI :1 XJ :3 ZI :0 ZJ :2/3 17 针对单属性的相似度和相异度 补充:对非对称变量的处理 注意距离类型的选择 针对混合类型变量的距离 设数据集有p个变量 对象i和j之间的相异度为 对每个变量f: 如果xif 或xjf 缺失,或者xif 和xjf 都为0,则 ,否则 例 Dist(Jack,Mary)=(1*0+0+1*1+1*1+1*(200-100)/(1000-50)+0)) / (1+0+1+1+1+0) = 0.526 注意问题 不同属性的重要程度不同:加权,总权重和为1 相似性在时序上的局限性 与算法和工具有关 20

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档