聚类分析中的距离度量 ;在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。
本次报告的目的就是对常用的相似性度量作一个总结。;目录;欧氏距离(EuclideanDistance);欧氏距离(续);Matlab计算欧氏距离; 曼哈顿距离(ManhattanDistance);Matlab计算曼哈顿距离;切比雪夫距离 ( Chebyshev Distance ) ;切比雪夫距离 ( 续 ) ;Matlab计算切比雪夫距离;明可夫斯基距离(Minkowski Distance);(2)明氏距离的缺点
明氏距离,包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。
举个例子:二维样本(身高,体重),其中身高范围是150~190,体重范围是50~60,有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b之间的明氏距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c之间的明氏距离,但是身高的10cm真的等价于体重的10kg么?因此用明氏距离来衡量这些样本间的相似度很有问题。
简单说来,明氏距离的缺点主要有两个:
(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。
(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。;Matlab计算明氏距离;标准化欧氏距离(Standardized Euclidean distance );标准化欧氏距离(续);马氏距离(Mahalanobis Distance);(2)马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。
(3)Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的马氏距离
X = [1 2; 1 3; 2 2; 3 1]
Y = pdist(X,mahalanobis)
结果:
Y=
2.3452 2.0000 2.3452 1.2247 2.4495 1.2247
; 夹角余弦(Cosine);夹角余弦(续); 汉明距离(Hamming Distance); 杰卡德相似系数(Jaccardsimilarity coefficient); 杰卡德相似系数(续);Matlab计算杰卡德距离;相关系数( Correlation coefficient ) 与相关距离(Correlation distance);(3)Matlab计算(1, 2 ,3 ,4 )与( 3 ,8 ,7 ,6 )之间的相关系数与相关距离
X = [1 2 3 4 ; 3 8 7 6]
C = corrcoef( X ) %将返回相关系数矩阵
D = pdist( X , correlation)
结果:
C=
1.0000 0.4781
0.4781 1.0000
D=
0.5219
其中0.4781就是相关系数,0.5219是相关距离。;信息熵(Information Entropy);
The End.
您可能关注的文档
最近下载
- 2026年大庆医学高等专科学校单招《数学》试题及参考答案详解【B卷】.docx VIP
- 2023考研东南大学自主命题考研真题 艺术设计.pdf VIP
- 加油站复工安全知识培训课件.pptx VIP
- T_GDSCEA 001-2023 T_GDJSKB 010-2023 装配式混凝土结构钢筋冷挤压套筒连接技术规程.pdf VIP
- 天然橡胶浓缩胶乳统一标准.doc VIP
- SY_T 4202-2019石油天然气建设工程施工质量验收规范 储罐工程.pdf
- 护理查房社区获得性肺炎,非重症.ppt VIP
- 2025年市政道路工程《监理规划》范本.pdf VIP
- 2025-2030年中国电力建设行业十五五发展规划及投资战略研究报告.docx VIP
- BS EN ISO 11666-2018 无损检测-超声波检测-验收等级 (中文版).docx.pdf VIP
原创力文档

文档评论(0)