聚类分析中的距离度量.ppt

聚类分析中的距离度量 ;在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本次报告的目的就是对常用的相似性度量作一个总结。;目录;欧氏距离(EuclideanDistance);欧氏距离(续);Matlab计算欧氏距离; 曼哈顿距离(ManhattanDistance);Matlab计算曼哈顿距离;切比雪夫距离 ( Chebyshev Distance ) ;切比雪夫距离 ( 续 ) ;Matlab计算切比雪夫距离;明可夫斯基距离(Minkowski Distance);(2)明氏距离的缺点 明氏距离,包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。   举个例子:二维样本(身高,体重),其中身高范围是150~190,体重范围是50~60,有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b之间的明氏距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c之间的明氏距离,但是身高的10cm真的等价于体重的10kg么?因此用明氏距离来衡量这些样本间的相似度很有问题。 简单说来,明氏距离的缺点主要有两个: (1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。 (2)没有考虑各个分量的分布(期望,方差等)可能是不同的。;Matlab计算明氏距离;标准化欧氏距离 (Standardized Euclidean distance );标准化欧氏距离(续);马氏距离(Mahalanobis Distance);(2)马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。 (3)Matlab计算(1 2),( 1 3),( 2 2),( 3 1)两两之间的马氏距离 X = [1 2; 1 3; 2 2; 3 1] Y = pdist(X,mahalanobis) 结果: Y= 2.3452 2.0000 2.3452 1.2247 2.4495 1.2247 ; 夹角余弦(Cosine);夹角余弦(续); 汉明距离(Hamming Distance); 杰卡德相似系数(Jaccardsimilarity coefficient); 杰卡德相似系数(续);Matlab计算杰卡德距离;相关系数( Correlation coefficient ) 与 相关距离(Correlation distance);(3)Matlab计算(1, 2 ,3 ,4 )与( 3 ,8 ,7 ,6 )之间的相关系数与相关距离 X = [1 2 3 4 ; 3 8 7 6] C = corrcoef( X ) %将返回相关系数矩阵 D = pdist( X , correlation) 结果: C= 1.0000 0.4781 0.4781 1.0000 D= 0.5219 其中0.4781就是相关系数,0.5219是相关距离。;信息熵(Information Entropy); The End.

文档评论(0)

1亿VIP精品文档

相关文档