- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对象间的相似性度量
vicky
对象间的相似性度量
相似性
余弦夹角
简单匹配系数与JACCARD系数
广义JACCARD系数
相关系数
相异度
距离
归一化的相似性=1-归一化的相异度
变量的标准化
计算平均绝对偏差
其中
计算标准化的度量值(z-score)
使用平均绝对偏差往往比使用标准差更具有健壮性
4
夹角余弦
简单匹配系数和JACCARD系数
对称的二元变量
不对称的二元变量
常将出现概率较小的状态编码为1,将另一种状态编码为0
两个都取值为0的情况成为负匹配,被认为不重要
简单匹配系数: R=(a+d)/(a+b+c+d)
JACCARD系数:J=a/(a+b+c)
6
广义JACCARD系数
7
相关系数
欧式距离与绝对距离
欧式距离
绝对距离(Manhattan距离)
Minkowski距离
其中
Minkowski距离又称 距离, 距离即欧式距离, 距离即绝对距离。
切比雪夫距离
Chebyshev距离(切比雪夫距离)
Chebyshev距离是Minkowski距离当 时的极限。
方差加权距离
对标准化数据 计算欧式距离时,即是方差加权距离。
马氏距离
其中 是由各变量计算得到的协方差矩阵。
考虑了变量之间的相关性。
针对二元变量的距离
对称的二元变量
不对称的二元变量
常将出现概率较小的状态编码为1,将另一种状态编码为0
两个都取值为0的情况成为负匹配,被认为不重要
14
二元变量距离和相似性练习
某个数据集现有10个二元变量,两个观测对象X和Y的取值如下:X=0101001101
y= 0001111001
如果10个二元变量为对称二元变量,对象X和Y之间的距离是多少?简单匹配系数是多少?
如果10个二元变量为非对称二元变量,对象X和Y之间的距离是多少?JACCARD系数是多少?
针对标称变量的距离
1. 简单匹配方法
m: 匹配的数目, 即对象i和j取值相同的变量的数目
P:全部标称变量的数量
2. 对每个标称变量的每个取值创建一个新的二元变量,并用非对称二元变量的计算方法计算标称变量的相异度
红 绿 蓝 黄 取值
0 1 0 0 绿
0 0 1 0 蓝
……
针对序数型变量的距离
1.以顺序代替原值
设序数变量f的第i个对象的值为xif,则用它在可能取值中的顺序rif 代替xif (假设f有Mf个有序状态)
2. 将每个rif映射到[0,1]区间
3. Zif视作数值变量计算距离
职称(4档):XI :助教 XJ :副教授 ——? XI :1 XJ :3
ZI :0 ZJ :2/3
17
针对单属性的相似度和相异度
补充:对非对称变量的处理
注意距离类型的选择
针对混合类型变量的距离
设数据集有p个变量
对象i和j之间的相异度为
对每个变量f:
如果xif 或xjf 缺失,或者xif 和xjf 都为0,则 ,否则
例
Dist(Jack,Mary)=(1*0+0+1*1+1*1+1*(200-100)/(1000-50)+0))
/ (1+0+1+1+1+0)
= 0.526
注意问题
不同属性的重要程度不同:加权,总权重和为1
相似性在时序上的局限性
与算法和工具有关
20
您可能关注的文档
最近下载
- 论文ICU口腔感染的预防护理.doc VIP
- 非标自动化电气设计作业流程与标准规范统一标准详.doc VIP
- 胰腺炎胃肠减压的护理.pptx VIP
- 2025至2030年中国成人高等教育市场运行态势及行业发展前景预测报告.docx
- 完整版中级财务会计试题及答案.docx VIP
- (NEW)中山大学中国语言文学系612语言学概论历年考研真题及详解.docx VIP
- 3L.05.01 ×× U9 ERP项目-项目上线总结报告.docx VIP
- 户外运动伤害保险服务分析方案.docx VIP
- 南京市鼓楼区2024~2025学年九年级(上)期末考试物理试卷及答案.pdf VIP
- 2025年护士长年终工作总结PPT课件.pptx VIP
原创力文档


文档评论(0)