聚类分析中距离度量的比较与选择.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

聚类分析中距离度量的比较与选择

一、聚类分析与距离度量的核心关联

(一)聚类分析的本质与目标

聚类分析是数据挖掘领域中最具探索性的“无监督学习”方法,其本质是通过量化样本间的“相似性”,将数据划分为若干个簇群——让簇内样本尽可能“相似”,簇间样本尽可能“差异”。这种分析无需预先标注标签,却能帮我们发现数据中隐藏的结构:比如电商平台能通过用户聚类识别高价值群体,新闻网站能通过文章聚类划分主题,生物实验室能通过基因聚类探索功能关联。

但“相似性”是个模糊的概念——我们说“两个用户像”,可能是指他们都爱买电子产品,也可能是指他们都习惯晚上购物。要把这种模糊的“像”转化为可计算的数值,就需要“距离度量”这把“尺子”。聚类的目标,本质上是用这把尺子量出样本间的差异,再把差异小的样本归到一起。可以说,没有距离度量,聚类分析就失去了“量化基础”。

(二)距离度量在聚类中的核心作用

距离度量是聚类算法的“发动机”,几乎所有聚类逻辑都围绕“距离”展开:K-means通过计算样本到质心的距离划分簇群,层次聚类通过计算簇间距离合并或拆分簇,密度聚类通过计算样本间距离识别密度区域。距离度量的选择,直接决定了聚类算法“如何看待样本”——用欧氏距离的K-means会认为“直线距离近的样本更像”,用余弦相似度的层次聚类会认为“主题方向一致的样本更像”。

举个简单例子:用户A每月买1000元电子产品、2次;用户B每月买500元电子产品、10次。用欧氏距离计算,两者的距离会很大(因为1000和500的差被平方放大),K-means可能把他们分到不同簇;但用曼哈顿距离计算,两者的距离会小很多(因为绝对值不放大差异),可能被分到同一簇。这说明,相同的样本,不同的距离度量会得出完全不同的相似性判断——距离选对了,聚类结果才会贴合业务实际;选错了,结果可能完全偏离目标。

二、常见距离度量方法的原理与特点

聚类分析中最常用的距离度量有五种:欧氏距离、曼哈顿距离、切比雪夫距离、余弦相似度、马氏距离。每种距离都有独特的原理与适用场景,理解它们的特点是选对“尺子”的关键。

(一)欧氏距离:最直观的“直线距离”

欧氏距离源于几何中的“两点间直线距离”——在二维平面上,从点(x?,y?)到点(x?,y?)的最短路径就是直线,长度是√[(x?-x?)2+(y?-y?)2]。扩展到高维空间,欧氏距离的逻辑是:先算每个维度的差异(两个样本对应特征的差),再把这些差异的平方相加,最后取平方根。

比如,样本A(身高170cm,体重60kg,月收入5000元)和样本B(身高175cm,体重65kg,月收入6000元)的欧氏距离,就是√[(170-175)2+(60-65)2+(5000-6000)2]≈1000.025。从结果能看出,欧氏距离对大数值差异极其敏感——月收入的差(1000元)远大于身高、体重的差,导致距离几乎被月收入“主导”。

欧氏距离的优势是“直观易懂”,且和K-means的目标函数(最小化簇内平方和)天然匹配。但它的缺点也很明显:一是对量纲差异敏感(比如收入用元、次数用次,大数值会淹没小数值);二是对异常值敏感(比如月收入突然变成10万元,平方后差异会被放大到极致);三是没考虑变量相关性(比如身高和体重相关,欧氏会重复计算两者的差异)。

(二)曼哈顿距离:“城市街区”的路径距离

曼哈顿距离的名字来自纽约曼哈顿的街道布局——在纵横交错的街道上,从一个路口到另一个路口,只能沿街道走,不能走对角线,总距离是横向+纵向的步数之和。在数据世界中,曼哈顿距离的逻辑是:算每个维度差异的绝对值,再把这些绝对值相加。

比如样本A和样本B的曼哈顿距离,就是|170-175|+|60-65|+|5000-6000|=5+5+1000=1010。和欧氏距离相比,曼哈顿的结果更小,且月收入的影响没被平方放大。

曼哈顿距离的优势是“对量纲和异常值更鲁棒”——绝对值不会放大大数值的影响,比如月收入突然变成10万元,曼哈顿距离只是加10万,而欧氏是加10万的平方(100亿)。它还符合某些实际场景的逻辑,比如外卖配送距离(配送员只能沿街道走)、导航软件的路线规划(避免绕路)。

但曼哈顿也有局限:它没考虑变量相关性(比如身高和体重相关,会重复计算差异);且对所有维度权重均等,无法突出关键维度(比如想让购买次数比金额更重要,曼哈顿做不到)。

(三)切比雪夫距离:“最短板”的极限距离

切比雪夫距离的灵感来自“棋盘上的国王移动”——国王可以向任意方向走一步,从一个格子到另一个格子的最短步数,等于横向或纵向步数的最大值。在数据世界中,切比雪夫距离的逻辑是:取所有维度差异绝对值的最大值。

比如样本A和样本B的切比雪夫距离,就是max(|170-175|,|60-65|,|5000-6000|)=1000。也就是说,不管

您可能关注的文档

文档评论(0)

139****1575 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档