临床医学大数据分析与挖掘—基于Python的机器学习与临床决策第5章无监督学习.ppt

下载文档

21
0
约1.11万字
约 59页
2022-10-10 发布于甘肃
举报
版权申诉
保障服务

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策第5章无监督学习.ppt

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

其中，为距离计算函数，用于计算两个样本之间的距离，代表簇的中心点。显然，对应簇内样本间的平均距离，对应簇内样本间的最远距离，对应簇与簇最近样本间的距离，对应簇与簇中心点间的距离。基于式、、和，可得到如下2个常用的聚类性能度量的内部指标。性能度量 DB指数（Davies-Bouldin Index，DBI），如下式。 Dunn指数（Dunn Index，DI），如下式。显然，DBI的计算结果越小越表明聚类效果好，而DI则正相反。性能度量聚类分析的目的是把分类对象按照一定的规则分成若干类，同一类的对象具有某种相似性，而不同类的对象之间不相似。通常情况下，聚类结果的优劣可以采用对象之间距离的远近来评价。在聚类分析中，给定样本点，，常用的距离计算公式包括以下几种。欧式距离（Euclidean distance），如下。距离计算曼哈顿距离（Manhattan distance），如下。切比雪夫距离（Chebyshev distance），如下。闵文斯基距离（Minkowski distance），如下。距离计算针对于无序属性，无若令表示在属性上取值为的样本数，表示第个样本簇中在属性上取值为的样本数，为样本簇个数，则在属性上两个离散值与的距离，可采用VDM距离，如下。距离计算原型聚类亦称为“基于原型的聚类”。此类算法假设聚类结构能够通过一组原型刻画，在实践操作中极为常用。通常情形下，算法先对原型进行初始化，然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式，将产生不同的算法。下面重点介绍3种常用的原型聚类算法。原型聚类在K均值（K-Means）算法中，首先随机初始化类的中心，然后将每个样本点按照距离最近的原则划归为相应的类内，更新类中心，直至样本点到相应类中心的距离平方和达到最小。假设样本集合，给定需划分的簇数，聚类的结果为。则K均值算法的优化目标的表达式如下式。式中，为簇的均值向量。原型聚类 1. K均值算法虽然理论上可以穷举所有聚类的结果，然后给出最后的聚类结果，但是该方法的计算复杂性过大而无法实际应用。因此在实际中，对K均值算法采用贪婪策略，求得优化目标的近似解。 K均值算法的基本过程，如图所示。原型聚类 K均值算法的具体步骤如下。（1）输入样本集合及聚类簇数。（2）从样本集中随机选择K个样本点作为K个簇中心。（3）计算每个样本点到每个簇中心的距离。（4）按照距离远近将每个样本点归入相应的簇内。（5）更新每个簇的中心。（6）重复步骤（2）~（5），直至簇中心不再变化。（7）输出聚类结果。原型聚类学习向量量化（Learning Vector Quantization，LVQ）也是一种原型聚类算法。LVQ算法不同于K均值算法，该算法是假设样本数据是带有类别标记的，通过监督信息来辅助聚类。在该算法中，引入了原型向量的更新学习规则，根据每次迭代中样本点与聚类原型的类标记是否相同，针对聚类原型进行更新，直到满足终止条件。原型聚类 2. 学习向量量化假设样本集合，给定原型向量个数，学习率，预设标记为。给定一组初始聚类原型向量

您可能关注的文档

文档评论（0）

dllkxy + 关注: 实名认证

内容提供者

本文库主要涉及建筑、教育等资料，有问题可以联系解决哦

咨询Ta 进入空间

用户编号：5213302032000001

1亿VIP精品文档

更多 >

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策第5章无监督学习.ppt