聚类分析中距离度量的比较与选择.docxVIP

下载本文档

0
0
约5.88千字
约 12页
2026-01-03 发布于上海
举报
版权申诉

聚类分析中距离度量的比较与选择.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析中距离度量的比较与选择

一、聚类分析与距离度量的核心关联

（一）聚类分析的本质与目标

聚类分析是数据挖掘领域中最具探索性的“无监督学习”方法，其本质是通过量化样本间的“相似性”，将数据划分为若干个簇群——让簇内样本尽可能“相似”，簇间样本尽可能“差异”。这种分析无需预先标注标签，却能帮我们发现数据中隐藏的结构：比如电商平台能通过用户聚类识别高价值群体，新闻网站能通过文章聚类划分主题，生物实验室能通过基因聚类探索功能关联。

但“相似性”是个模糊的概念——我们说“两个用户像”，可能是指他们都爱买电子产品，也可能是指他们都习惯晚上购物。要把这种模糊的“像”转化为可计算的数值，就需要“距离度量”这把“尺子”。聚类的目标，本质上是用这把尺子量出样本间的差异，再把差异小的样本归到一起。可以说，没有距离度量，聚类分析就失去了“量化基础”。

（二）距离度量在聚类中的核心作用

距离度量是聚类算法的“发动机”，几乎所有聚类逻辑都围绕“距离”展开：K-means通过计算样本到质心的距离划分簇群，层次聚类通过计算簇间距离合并或拆分簇，密度聚类通过计算样本间距离识别密度区域。距离度量的选择，直接决定了聚类算法“如何看待样本”——用欧氏距离的K-means会认为“直线距离近的样本更像”，用余弦相似度的层次聚类会认为“主题方向一致的样本更像”。

举个简单例子：用户A每月买1000元电子产品、2次；用户B每月买500元电子产品、10次。用欧氏距离计算，两者的距离会很大（因为1000和500的差被平方放大），K-means可能把他们分到不同簇；但用曼哈顿距离计算，两者的距离会小很多（因为绝对值不放大差异），可能被分到同一簇。这说明，相同的样本，不同的距离度量会得出完全不同的相似性判断——距离选对了，聚类结果才会贴合业务实际；选错了，结果可能完全偏离目标。

二、常见距离度量方法的原理与特点

聚类分析中最常用的距离度量有五种：欧氏距离、曼哈顿距离、切比雪夫距离、余弦相似度、马氏距离。每种距离都有独特的原理与适用场景，理解它们的特点是选对“尺子”的关键。

（一）欧氏距离：最直观的“直线距离”

欧氏距离源于几何中的“两点间直线距离”——在二维平面上，从点(x?,y?)到点(x?,y?)的最短路径就是直线，长度是√[(x?-x?)2+(y?-y?)2]。扩展到高维空间，欧氏距离的逻辑是：先算每个维度的差异（两个样本对应特征的差），再把这些差异的平方相加，最后取平方根。

比如，样本A（身高170cm，体重60kg，月收入5000元）和样本B（身高175cm，体重65kg，月收入6000元）的欧氏距离，就是√[(170-175)2+(60-65)2+(5000-6000)2]≈1000.025。从结果能看出，欧氏距离对大数值差异极其敏感——月收入的差（1000元）远大于身高、体重的差，导致距离几乎被月收入“主导”。

欧氏距离的优势是“直观易懂”，且和K-means的目标函数（最小化簇内平方和）天然匹配。但它的缺点也很明显：一是对量纲差异敏感（比如收入用元、次数用次，大数值会淹没小数值）；二是对异常值敏感（比如月收入突然变成10万元，平方后差异会被放大到极致）；三是没考虑变量相关性（比如身高和体重相关，欧氏会重复计算两者的差异）。

（二）曼哈顿距离：“城市街区”的路径距离

曼哈顿距离的名字来自纽约曼哈顿的街道布局——在纵横交错的街道上，从一个路口到另一个路口，只能沿街道走，不能走对角线，总距离是横向+纵向的步数之和。在数据世界中，曼哈顿距离的逻辑是：算每个维度差异的绝对值，再把这些绝对值相加。

比如样本A和样本B的曼哈顿距离，就是|170-175|+|60-65|+|5000-6000|=5+5+1000=1010。和欧氏距离相比，曼哈顿的结果更小，且月收入的影响没被平方放大。

曼哈顿距离的优势是“对量纲和异常值更鲁棒”——绝对值不会放大大数值的影响，比如月收入突然变成10万元，曼哈顿距离只是加10万，而欧氏是加10万的平方（100亿）。它还符合某些实际场景的逻辑，比如外卖配送距离（配送员只能沿街道走）、导航软件的路线规划（避免绕路）。

但曼哈顿也有局限：它没考虑变量相关性（比如身高和体重相关，会重复计算差异）；且对所有维度权重均等，无法突出关键维度（比如想让购买次数比金额更重要，曼哈顿做不到）。

（三）切比雪夫距离：“最短板”的极限距离

切比雪夫距离的灵感来自“棋盘上的国王移动”——国王可以向任意方向走一步，从一个格子到另一个格子的最短步数，等于横向或纵向步数的最大值。在数据世界中，切比雪夫距离的逻辑是：取所有维度差异绝对值的最大值。

比如样本A和样本B的切比雪夫距离，就是max(|170-175|,|60-65|,|5000-6000|)=1000。也就是说，不管

您可能关注的文档

文档评论（0）

139****1575 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

聚类分析中距离度量的比较与选择.docxVIP