尚硅谷大数据技术之spark机器学习kmeans聚类.pptx

下载文档

1
0
约小于1千字
约 8页
2025-01-03 发布于北京
举报
版权申诉
保障服务

尚硅谷大数据技术之spark机器学习kmeans聚类.pptx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习-KMeans聚类讲师：武玉飞

0102030405聚类的定义Kmeans的过程相似度计算方法K的初始位置KMeans的优劣目录Contents

聚类的定义与思想聚类属于无监督学习，就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小基本思想：对于给定的k，算法首先给出一个初始的划分方法，以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。给定一个有N个对象的数据集，划分聚类技术将构造数据的k个划分，每一个划分代表一个簇，k≤n。也就是说，聚类将数据划分为k个簇，而且这k个划分满足下列条件：每一个簇至少包含一个对象每一个对象属于且仅属于一个簇

Kmeans算法实现KMEANS结束条件：直到类中心不再进行大范围移动或者聚类迭代次数达到要求为止。未聚类的初始点集；随机选取两个点作为聚类中心；计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去；计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心；重复（c），计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去；重复（d），计算每个聚类中的所有点的坐标平均值，并将这个平均值作为新的聚类中心。算法步骤

相似度计算方法1、欧式距离2、余弦距离

K的初始位置从输入的数据点集合中随机选择一个点作为第一个聚类中心对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大重复2和3直到k个聚类中心被选出来利用这k个初始的聚类中心来运行标准的k-means算法

优点：是解决聚类问题的一种经典算法，简单、快速对处理大数据集，该算法保持可伸缩性和高效率当结果簇是密集的，它的效果较好缺点必须事先给出k（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。对躁声和孤立点数据敏感KMeans的优劣