第5章聚类(一)(免费阅读).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非监督学习 ——聚类 什么是聚类 聚类是一种无监督分类法: 没有预先指定的类别 分类:用已知类别的样本训练集来设计分类器(监督学习) 聚类:用事先不知类别的样本,利用样本的先验知识来构造分类器(无监督学习) 聚类分析无训练过程,训练与识别混合在一起。 相似性度量 设有样本集 ,要求按某种相似性将其分类,怎样实现? 聚类分析符合“物以类聚,人以群分“的原则,它把相似性大的样本聚集为一个类型,在特征空间里占据着一个局部区域。每个局部区域都形成一个聚合中心,聚合中心代表相应类型。 如下图中,(a)有一个聚合中心,(b)、(c)有两个。 聚类分析避免了估计类概率密度的困难,对每个聚合中心来说都是局部密度极大值位置,其附近密度高,距离越远密度越小。 聚类分析的关键问题:如何在聚类过程中自动地确定类型数目c。 实际工作中,也可以给定值作为算法终止的条件。 聚类分析的结果与特征的选取有很大的关系。不同的特征,分类的结果不同。 1.距离相似性度量 一个模式样本,对应特征空间里的一个点。如果模式的特征是适当选择的,也就是各维特征对于分类来说都是有效的,那么同类样本就会密集地分布在一个区域里,不同类的模式样本就会远离。因此,点间距离远近反映了相应模式样本所属类型有无差异,可以作为样本相似性度量。距离越近,相似性越大,属于一个类型。聚类分析中,最常用的就是距离相似性。 (1)欧氏距离 欧氏距离简称距离,模式样本向量 x与y之间的欧氏距离定义为: d为特征空间的维数。 当 较小时,表示x与y在一个类型区域,反之,则不在一个类型区域。这里有一个门限的选择问题。若选择过大,则全部样本被视作一个唯一类型;若选取过小,则可能造成每个样本都单独构成一个类型。必须正确选择门限值以保证正确分类。 (1)欧氏距离(续) 另外,模式特征坐标单位的选取也会强烈地影响聚类结果。 例如:一个二维模式,一个特征是长度,另一个特征是压力。 当长度由厘米变为米,在 中长度特征的比重会下降,同样,若把比重单位由毫米汞柱高度变成厘米汞柱高度, 中压力特征的影响也会下降。 (1)欧氏距离(续) 可以用图表示上述情况: 从上图看出,(b)、(c)特征空间划分是不同的。(b)中 为一类, 为另一类,(c) 中 为一类, 为另一类。 (1)欧氏距离(续) 另外,使用欧氏距离度量时,还要注意模式样本测量值的选取,应该是有效反映类别属性特征(各类属性的代表应均衡)。但马氏距离可解决不均衡(一个多,一个少)的问题。 例如,取5个样本,其中有4个反映对分类有意义的特征A,只有1个对分类有意义的特征B,欧氏距离的计算结果,则主要体现特征A。 (2)马氏(Mahalanobis)距离 定义:马氏距离的平方 其中,为均值向量, 为协方差矩阵。 马氏距离排除了不同特征之间相关性的影响,其关键在于协方差矩阵的计算。当为对角阵时,各特征之间才完全独立;当为单位矩阵时,马氏距离等于欧氏距离。 马氏距离比较适用于对样本已有初步分类的情况,做进一步考核、修正。 基本概念 协方差: Cov(X,Y)=E{ [ X-E(X) ] [ Y-E(Y) ] } 协方差矩阵 Σ=E{(X-E[X])(X-E[X])} 矩阵中的第(i,j)个元素是xi与xj的协方差 (3)明氏(Minkowsky)距离 定义:明氏距离: 它是若干距离函数的通式: 时,等于欧氏距离; 时,称为“街区”(city block)距离。 2. 角度相似性度量 样本x与y之间的角度相似性度量定义为它们之间夹角的余弦,即 也是单位向量之间的点积(内积)。 越大, x与y越相似。常用于情报检索、植物分类、疾病分类。 2. 角度相似性度量 满足: ① ② 当 时, 达到最大。对于坐标系的旋转及放大、缩小 是不变的量,但对位移和一般性的线性变换并不具有是不变性的性质。 样本相似性度量是聚类分析的基础,针对具体问题,选择适当的相似性度量是保证聚类质量的重要问题。但有了相似性度量还不够,还必须有适当的聚类准则函数。聚类准则函数对聚类质量也有重大影响。 相似性度量 → 集合与集合的相似性。 相似性准则 → 分类效果好坏的评价准则 聚类准则函数 在样本相似性度量的基础上,聚类分析还需要一定的准则函数,才能把真正

文档评论(0)

wuyuetian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档