网站大量收购闲置独家精品文档,联系QQ:2885784924

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第5章 无监督学习.ppt

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第5章 无监督学习.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
其中, 为距离计算函数,用于计算两个样本之间的距离, 代表簇 的中心点 。显然, 对应簇 内样本间的平均距离, 对应簇 内样本间的最远距离, 对应簇 与簇 最近样本间的距离, 对应簇 与簇 中心点间的距离。 基于式 、 、 和 ,可得到如下2个常用的聚类性能度量的内部指标。 性能度量 DB指数(Davies-Bouldin Index,DBI),如下式。 Dunn指数(Dunn Index,DI),如下式。 显然,DBI的计算结果越小越表明聚类效果好,而DI则正相反。 性能度量 聚类分析的目的是把分类对象按照一定的规则分成若干类,同一类的对象具有某种相似性,而不同类的对象之间不相似。通常情况下,聚类结果的优劣可以采用对象之间距离的远近来评价。 在聚类分析中,给定样本点 , ,常用的距离计算公式包括以下几种。 欧式距离(Euclidean distance),如下。 距离计算 曼哈顿距离(Manhattan distance),如下。 切比雪夫距离(Chebyshev distance),如下。 闵文斯基距离 (Minkowski distance),如下。 距离计算 针对于无序属性,无若令 表示在属性 上取值为 的样本数, 表示第 个样本簇中在属性 上取值为 的样本数, 为样本簇个数,则在属性 上两个离散值 与 的距离,可采用VDM距离,如下。 距离计算 原型聚类亦称为“基于原型的聚类”。此类算法假设聚类结构能够通过一组原型刻画,在实践操作中极为常用。 通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解。 采用不同的原型表示、不同的求解方式,将产生不同的算法。下面重点介绍3种常用的原型聚类算法。 原型聚类 在K均值(K-Means)算法中,首先随机初始化类的中心,然后将每个样本点按照距离最近的原则划归为相应的类内,更新类中心,直至样本点到相应类中心的距离平方和达到最小。 假设样本集合 ,给定需划分的簇数 ,聚类的结果为 。则K均值算法的优化目标的表达式如下式。 式中, 为簇 的均值向量。 原型聚类 1. K均值算法 虽然理论上可以穷举所有聚类的结果,然后给出最后的聚类结果,但是该方法的计算复杂性过大而无法实际应用。因此在实际中,对K均值算法采用贪婪策略,求得优化目标的近似解。 K均值算法的基本过程,如图所示。 原型聚类 K均值算法的具体步骤如下。 (1)输入样本集合及聚类簇数。 (2)从样本集中随机选择K个样本点作为K个簇中心。 (3)计算每个样本点到每个簇中心的距离。 (4)按照距离远近将每个样本点归入相应的簇内。 (5)更新每个簇的中心。 (6)重复步骤(2)~(5),直至簇中心不再变化。 (7)输出聚类结果。 原型聚类 学习向量量化(Learning Vector Quantization,LVQ)也是一种原型聚类算法。LVQ算法不同于K均值算法,该算法是假设样本数据是带有类别标记的,通过监督信息来辅助聚类。在该算法中,引入了原型向量的更新学习规则,根据每次迭代中样本点与聚类原型的类标记是否相同,针对聚类原型进行更新,直到满足终止条件。 原型聚类 2. 学习向量量化 假设样本集合 ,给定原型向量个数 ,学习率 ,预设标记为 。给定一组初始聚类原型向量

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档