学习课件 (17)讲解.pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

k均值聚类授课人:宋楚平

目录01k均值算法流程02k-均值算法应用提示

PART01k均值算法流程

k均值算法流程k‐均值(k-means)聚类是一种基于划分的聚类算法,由于具算法简单、灵活性强、运行效果足够好等特点,是一种最常用的聚类方法。该方法计算样本点与类簇质心的距离,与类簇质心相近的样本点划分为同一类簇。k‐均值通过样本间的距离来衡量它们之间的相似度,两个样本距离越远,则相似度越低,否则相似度越高。

k均值算法流程k-means算法流程k-均值算法的流程如下图所示

k均值算法流程为更详细地了解k-means算法的运行过程,下图演示了样本分为两簇的情况。k-means算法聚类过程图中(a)表达了初始的数据集,假设k=2。在图中(b)中,我们随机选择了两个簇所对应的类别质心,即图中的红色质心和蓝色质心,然后分别求样本中所有点到这两个质心的距离,并标记每个样本的类别为和该样本距离最小的质心的类别,如图中(c)所示。经过计算样本和红色质心和蓝色质心的距离,就得到了所有样本点的第一轮迭代后的类别。此时我们对当前标记为红色和蓝色的点分别求其新的质心,如图中(d)所示,此时新的红色质心和蓝色质心的位置已经发生了变动。图中(e)和图中(f)重复了我们在图中(c)和图中(d)的过程,即将所有点的类别标记为距离最近的质心的类别并求新的质心,最终我们得到的两个类别如图中(f)。

k均值算法流程在实际应用过程中,有可能存在数据集过大而导致算法收敛速度过慢的情况,导致无法得到有效的聚类结果,在这样的情况下,可以为k-means算法指定最大迭代次数或指定簇中心变化阈值,即当算法运行达到最大迭代次数或簇中心变化很小(即变化率小于设定的阈值)时,即终止算法的运行。

PART02k-均值算法应用提示

k均值算法应用提示(1)k的初值(2)初始质心的选择(3)聚类完毕后,所有样本是有簇号的。(4)聚类结束条件k-均值算法的关键要素

k均值算法应用提示k的初a值k是一个提前定义好的数,其目标是最小化每个簇内部的差异,最大化簇之间的差异。那k值取多大合适呢?它取决于你的业务需求或分析动机,例如,营销部门只有3个不同的资源来支撑拓展市场,那么将k=3以聚类三种不同的潜在客户可能是一种不错的决定。如果没有先验知识,一个经验建议是令,其中n是样本总数,然后在其附近搜索不同k值,观察k值变化引起聚类性能的改变,选择一个满足应用要求且聚类效果相对稳定的k值就可以了。

k均值算法应用提示初始质心的选择k-means算法对初始质心是比较敏感的,这意味着随机的初始质心可能对最终的聚类结果产生较大的影响。选择合适质心的方法有:方法1是如果事先知道某几个样本是彼此完全不同的,就选择他们为质心;方法2是跳出样本范围,在特征空间任意地方取随机值为质心;方法3是分段选质心,第1个质心随机取,其它质心按距离已定质心最远的样本点来选取。关于质心的优选方法,大家可以研究相关其它聚类算法。由于随机质心的影响,可能会导致每次聚类的结果不一样,因此,可以通过多次运行来选择聚类性能最优的那组为最优解。

k均值算法应用提示聚类完毕后,所有样本是有簇号的也就是原来没有标签的样本,经过聚类后算法给每个样本一个标签号。相同簇号(或标签号)的样本的特征平均值就是该簇质心的坐标,这也是k-means算法名称的由来。

k均值算法应用提示聚类结束条件尽管聚类能为我们产生新的信息,但我们不应该在新信息的准确性上花费太多的时间,因为聚类是无监督,我们更应该关注对新信息的洞察和理解。当样本数量很大时,或者你定义的聚类误差很严苛时,为避免聚类运行陷入迟迟不出结果的尴尬局面,就必须设定最大迭代次数和误差阈值,满足其一即可停止聚类。

携手同行,走向辉煌!

文档评论(0)

方世玉 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6101050130000123

1亿VIP精品文档

相关文档