- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Python数据挖掘与机器学习第8章聚类
第8章聚类本章内容聚类分析K-Means聚类层次聚类基于密度的聚类其他聚类方法聚类评估28十月20242
第8章聚类3无监督学习(UnsuperviseLearning)着重于发现数据本身的分布特点。与监督学习(SupervisedLearning)不同,无监督学习不需要对数据进行标记。从功能角度讲,无监督学习模型可以发现数据的“群落”,同时也可以寻找“离群”的样本。另外,对于特征维度非常高的数据样本,同样可以通过无监督学习进行数据降维,保留最具有区分性的低维度特征。聚类是一个将数据对象集划分为多个组或簇的过程,使得簇内的数据对象具有很高的相似性,但不同簇间的对象具有很高的相异性。
第8章聚类4聚类算法分类随着聚类分析技术的蓬勃发展,目前已有很多类型的聚类算法。但很难对聚类方法进行简单的分类,因为这些类别的聚类可能重叠,从而使得一种方法具有一些交叉的特征。一般而言,聚类算法被划分为以下几类:1.划分方法2.基于层次的方法3.基于密度的方法4.局域网格的方法
K-Means聚类聚类分析中最广泛使用的算法为K-Means聚类算法。28十月20245给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,k=n,而且满足:(1)每个组至少包含一个对象;(2)每个对象属于且仅属于一个组。划分时要求同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能地远离或不同。K-Means算法是一个迭代的优化算法,最终使得下面均方误差最小。
K-Means聚类K-Means算法:28十月20246用于划分的K-Means算法,其中每个簇的中心都用簇中所有对象的均值来表示。K-Means聚类模型所采用的迭代算法直观易懂且非常实用。但是具有容易收敛到局部最优解和需要预先设定簇的数量的缺陷。
K-Means聚类7K=2随机划分更新聚类中心更新聚类中心指派对象类标号Loopifneeded初始数据集
k均值算法的评论优点:可扩展性较好,算法复杂度为O(nkt),其中n为对象总数,k是簇的个数,t是迭代次数。经常终止于局部最优解
k均值算法的评论缺点只有当簇均值有定义的情况下,k均值方法才能使用。(某些分类属性的均值可能没有定义)用户必须首先给定簇数目不适合发现非凸形状的簇,或者大小差别很大的簇对噪声和离群点数据敏感
k均值算法实现fromsklearn.datasetsimportload_irisfromsklearn.clusterimportKMeansiris=load_iris()#加载数据集X=iris.dataestimator=KMeans(n_clusters=3)#构造K-Means聚类模型estimator.fit(X)#数据导入模型进行训练label_pred=estimator.labels_#获取聚类标签print(label_pred)#显示各个样本所属的类别标签[111111111111111111111111111111111111111111111111110020000000000000000000000002000000000000000000000020222202222220022220202022002222202222022202220220]10/28/2024
k均值方法的变种k均值方法有些变种,他们的区别在于不同的初始k个均值的选择不同的相异度计算不同的计算簇均值的策略
k均值方法的变种聚类分类数据的方法:k众数(mode)方法用众数来替代簇的均值采用新的相异性度量处理分类对象采用基于频率的方法更新簇的众数可以集成k均值和k众数方法,对具有数值和分类值的数据进行聚类
K-Means聚类K-Means算法改进:1.K-means++算法K-means算法初始时随机选取数据集中K个点作为聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。K-means++算法初始的聚类中心之间的相互距离要尽可能的远。28十月202413
K-Means聚类K-Means算法改进:2.ISODATA算法ISODATA的全称是迭代自组织数据分析法,是在K-means算法的基础上,增加对聚类结果的“合并”和“分裂”两个操
您可能关注的文档
- 1.1集合的概念基础题同步练习-2024-2025学年高一上学期数学人教A版(2019)必修第一册.docx
- 1.4+.1充分条件与必要条件-2024-2025学年高一上学期数学人教A版(2019)必修第一册.pptx
- 1.5.2++全称量词命题与存在量词命题的否定+课件-2024-2025学年高一上学期数学人教A版(2019)必修第一册.pptx
- 第 1 章 数据挖掘概论.pptx
- 第 2 章 Python数据分析与挖掘基础.pptx
- 第 3 章 认识数据.pptx
- 第 4 章 数据预处理.pptx
- 第 6 章 关联分析.pptx
- 第 9 章 神经网络与深度学习.pptx
- 第 11 章 本文和时序数据挖掘.pptx
文档评论(0)