Python金融数据分析与挖掘(微课版) 课件 5-6.K-均值聚类.pptx

Python金融数据分析与挖掘(微课版) 课件 5-6.K-均值聚类.pptx

第5章机器学习与实现聚类思想与K-均值聚类K-均值聚类应用举例

聚类思想第5章聚类分析主要是使类内的样本尽可能相似,而类之间的样本尽可能相异。聚类问题的一般提法是,设有n个样本的维观测数据组成一个数据矩阵为:其中,每一行表示一个样本,每一列表示一个指标,xij表示第i个样本关于第j项指标的观测值,并根据观测值矩阵X对样本进行聚类。聚类分析的基本思想是:在样本之间定义距离,距离表明样本之间的相似度,距离越小,相似度越高,关系越紧密;将关系密切的聚集为一类,关系疏远的聚集为另一类,直到所有样本都聚集完毕。

K-均值聚类方法第5章K-均值聚类是一种基于原型的、根据距离划分组的算法,其时间复杂度比其他聚类算法低,用户需指定划分组的个数K。其中,K-均值聚类常见距离测度包括欧几里得距离(也称欧氏距离)、曼哈顿距离、切比雪夫距离等。K-均值聚类默认采用欧氏距离进行计算,其公式如下:(表示第个i样本与第个j样本之间的欧氏距离)K-均值聚类算法的直观理解如下:Step1:随机初始化K个聚类中心,即K个类中心向量。Step2:对每个样本,计算其与各个类中心向量的距离,并将该样本指派给距离最小的类。Step3:更新每个类的中心向量,更新的方法为取该类所有样本的特征向量均值。Step4:直到各个类的中心向量不再发生变化为止,作为退出条件。

K-均值聚类方法第5章xi1.51.71.62.1

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档