网站大量收购独家精品文档,联系QQ:2885784924

机器学习原理与应用课件 第9章 K均值聚类.pptxVIP

机器学习原理与应用课件 第9章 K均值聚类.pptx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第9章 K均值聚类1

学习目标了解K-Means聚类的基本原理掌握利用Scikit-learn库进行K均值聚类基本方法122

目录页39.1基本原理9.2应用实例K均值聚类

9.1基本原理聚类是指以“同类样本相似度高而异类样本相似度低”为基本准则将样本自动分成若干个类别的过程,属于无监督学习(即无类别标记)。如图9-1所示,相似度较高或在特征空间距离较近的样本通常聚集成簇,因而,通过判别样本之间的相似度可将其分成指定数量的类别。类内样本相似性越大、类间样本相似性越低,则聚类效果越好。4图9-1聚类示例

9.1.1基本概念?5

9.1.1基本概念K均值聚类的基本步骤如下:步骤1:随机选择K个样本作为初始聚类中心。步骤2:计算每个样本到K个聚类中心的距离,选择距离其最近的聚类中心所属类别作为当前样本的类别直至所有样本点分类完毕。步骤3:根据K个类别中的样本计算相应均值并作为新的聚类中心。步骤4:重复步骤3~4直至每类的聚类中心或样本不再变化。6

9.1.1基本概念以“将5个样本分为两类”为例进一步描述K均值聚类的过程。①随机选择2个样本作为聚类中心。如图(a)所示。②将距离聚类中心最近的样本分至相应的类别。如图(b)所示。③计算每类样本的均值以作为新的聚类中心并更新每类的样本。如图(c)所示。④重复步骤3时发现无样本,因而聚类结束。如图(d)所示。7???????????????????????????(a)选取聚类中心(b)划分类别(c)计算均值(d)重复计算均值直至无样本更新

9.1.2评价标准(1)类内样本聚合度样本到距离其最近的聚类中心之间的距离之和,其值越小,表明类内样本越聚集,因而分类效果越好。在Scikit-learn库中,此指标可通过K均值聚类对象的inertia_属性获取。8

9.1.2评价标准?9

9.1.2评价标准?10

9.1.3扩展类型(1)DBSCAN聚类DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一种基于密度的聚类算法。其思想是将簇定义为密度相连的点的最大集合,能够将具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。11

9.1.3扩展类型DBSCAN算法描述:输入:数据集,邻域半径Eps,邻域中数据对象数目阈值MinPts。输出:密度联通簇。①从数据库中抽出一个未处理的点;②如果对于参数Eps和MinPts,抽出的点是核心点,则找出所有从该点密度相连的对象,形成一个簇;③若抽出的点是边缘点(非核心对象),寻找另一个点;④重复步骤②和③,直到所有的点都被处理。12

9.1.3扩展类型(2)层次聚类层次聚类(HierarchicalClustering)是一种基于原型的聚类算法,通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接各个节点。13

9.1.3扩展类型层次聚类算法描述:①移除网络中的所有边,得到有n个孤立节点。②计算网络中每对节点的相似度。③根据相似度从强到弱连接相应节点对,形成树状图。④根据实际需求横切树状图,获得社区结构。14

9.1.3扩展类型(3)Mini-BatchK-均值Mini-BatchK-均值使用了MiniBatch(分批处理)的方法对数据点之间的距离进行计算,是K-均值的修改版本,计算过程中使用小批量数据样本而不必使用所有的数据样本对群集质心进行更新,提高了大数据集的更新速度,并且可能对统计噪声更健壮。Mini-BatchK-均值算法描述如下。①从数据集中随机抽取一些数据形成小批量,把它们分配给最近的质心。②更新质心。15

9.2应用实例利用Scikit-learn库中K均值聚类模块引入方法如下:fromsklearn.clusterimportKMeans函数原型如下:KMeans(n_clusters=8,init=k-means++,n_init=10,max_iter=300,tol=0.0001,precompute_distances=auto,verbose=0,random_state=None,copy_x=True,n_jobs=1,algorithm=auto)16

9.2.1参数分析均值聚类算法重要的参数为K值,本例利用部法则确定最优K值并不同度量标准对模型的性能进行分析。(1)问题描述利用K均值聚类算法对make_blobs数据行聚类,具体要求如下:①利用肘部法则确定最优K值。②采用三种聚类度量标准比较最优K值与非最优K值时的

文档评论(0)

释然 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档