医学大数据分析 课件 第9--14章 聚类方法---医学图像数据分析.pptx

医学大数据分析 课件 第9--14章 聚类方法---医学图像数据分析.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医学大数据分析课件

医学大数据分析聚类方法高等教育出版社

CONTENTS目录1聚类的概念2聚类与分类的区别3划分方法4层次聚类4聚类算法评估

1聚类的概念

什么是聚类?

什么是聚类?聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。每一类称为一个簇。物以类聚,人以群分

聚类和分类的区别有监督学习学习器通过对大量有标记的训练集进行学习,从而建立模型用于预测未见示例的标记,例如神经网络和决策树无监督学习无训练样本,仅根据测试样本的在特征空间分布情况来进行标记/聚簇

有监督学习

无监督学习

分类图示训练数据待分类数据

聚类图示聚类中没有任何指导信息,完全按照数据的分布进行类别划分

2划分方法

距离度量?

距离度量?

3划分方法

划分方法给定n个数据对象的数据集D,以及要生成的簇数k,划分算法把数据分成k(k≦n)个分区,其中每个分区代表一个簇。使得在同一个簇中对象是“相似的”,而不同簇中的对象是“相异的”。也就是说,它将数据划分为k个组,同时满足如下的要求:每个组至少包含一个对象;每个对象必须属于且只属于一个组,同时某些模糊划分技术中第二个要求可以放宽。划分方法主要包含以下两种:K-均值算法K-中心点算法

k均值聚类给定k,算法的处理流程如下:Step1:从D中任意选择k个对象作为初始簇中心;Step2:将每个对象根据其与各个簇中心的距离,重新分配到与它最近的簇中;Step3:计算每个簇的平均值,并用该平均值代表相应的簇;Step4:回到第2步,直到不再有新的分配发生。

k均值聚类(a)(b)(c)(d)

k均值聚类优点相对高效的:算法复杂度O(tkn),其中n是数据对象的个数,k是簇的个数,t是迭代的次数,通常k,tn当簇是密集的,簇与簇之间区别明显时,它的效果较好。缺点只有当平均值有意义的情况下才能使用,对于类别字段不适用;必须事先给定要生成的簇的个数k;对“噪声”和异常数据敏感;不能发现非球形的簇,难以达到全局最优

k均值聚类缺陷(a)聚类-预期结果(b)原始数据(c)结果较差聚类

k-中心点聚类k-均值算法对离群点非常敏感。因为拥有极端值的对象将在很大程度上影响数据的分布。k-中心点:用中心点(位于簇最中心位置的对象)而不是簇中对象的平均值作为参考点。

k-中心点聚类算法实现的过程:设置聚类簇数k,从数据集中随机选择k个数据点作为初始簇中心。计算其余数据点到聚类簇中心的距离,并将其分配到距离最近的簇中。随机选择一个非簇中心代替最开始的初始中心,并进行重新分配剩余的数据。计算代替后的总代价,如果该总代价小于代替之前的总代价,则用该非簇中心对象代替原来的簇中心,否则不替换。重复执行步骤3-4,直到没有簇中心发生变化或达到迭代次数,算法停止并输出聚类簇中心坐标。

k-中心点聚类-优缺点k-中心点聚类的主要优点:该算法原理简单,容易实现。该算法伸缩性好,能够处理中小型数据集。该算法对于读入数据的顺序不敏感,数据输入顺序不影响聚类结果。该算法对离群点或“噪声”数据不敏感。

k-中心点聚类-优缺点?

4层次聚类

层次聚类把数据分成不同层,将数据对象组成层次结构或簇的“树”,有利于数据汇总和可视化。层次聚类使用距离作为衡量标准,不需要输入聚类的个数k,但需要设置终止条件。

层次聚类-步骤(1)把n个对象作为n个聚类(2)找出距离最近的两个聚类合并(3)重复(2)直至n个对象归于一类(或几类)BCAFDEG

层次聚类-距离最小距离(SINGLE):最大距离(COMPLETE):距离均值(MEAN):平均距离(AVERAGE):

层次聚类-距离(a)最小距离(b)最大距离(c)平均距离(d)均值距离

当算法使用最小距离衡量簇间距离时,称为最近邻聚类算法。此外,如果当最近的簇之间的距离超过某个任意的阈值时聚类过程就会终止,则称其为单连接算法。当一个算法使用最大距离度量簇间距离时,称为最远邻聚类算法。如果当最近簇之间的最大距离超过某个任意的阈值时聚类过程就会终止,则称其为全连接算法。距离度量

先将五个样本都分别看成是一个簇,最靠近的两个簇是3和4,因为他们具有最小的簇间距离D(3,4)=5

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档