机器学习课件第4章聚类模型.pptx

下载文档

1
0
约4.18千字
约 43页
2025-06-13 发布于山东
举报
版权申诉
保障服务

机器学习课件第4章聚类模型.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第4章聚类模型

课程学习内容4.1聚类模型的概念4.2聚类模型的算法原理4.3基于Python的聚类建模实例4.4基于Spark的聚类建模实例

4.1聚类模型的概念4.1.1聚类模型概述聚类是一种无监督的学习算法，就是按照某个特定标准（如距离准则）把一个数据集分割成不同的簇（簇也称为类），使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。组间距离最大化组内距离最小化

4.1聚类模型的概念聚类的目的是将整个数据集分成不同的簇，具体实现过程如下：1.数据预处理：将数据集进行清洗、去重、缺失值处理等操作，使得数据集符合聚类算法的要求。2.特征选择：选择合适的特征作为聚类的依据。3.模型训练与对数据的预测：选择适合的聚类算法对导入的数据进行训练，利用训练好的模型预测数据。4.分析与决策：通过评估指标对聚类结果进行评估选择最优的聚类数和聚类结果。根据聚类结果分析不同类别数据。

4.1聚类模型的概念?

4.1聚类模型的概念

4.1聚类模型的概念4.1.3聚类算法的评估有内部质量评价和外部质量评价两个标准：1.内部质量评价标准（1）CH指标 CH指标通过计算簇内各点与簇中心的距离平方和来度量簇内相似度，通过计算簇间中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标由分离度与紧密度的比值得到，值越大表示簇内各数据点联系越紧密，簇间越分散，聚类效果越好。

4.1聚类模型的概念（2）轮廓系数轮廓系数同时兼顾了聚类的内聚度和分离度，取值范围[-1,1]，数值越大聚类效果越好。（3）DB指标 DB指标用来衡量任意两个簇的簇内距离之和与簇间距离之比，值越小表示簇内相似度越高，簇间相似度越低

4.1聚类模型的概念

4.1聚类模型的概念2.外部质量评价标准（1）兰德指标兰德指标用于衡量两个簇的相似度，取值范围[0,1]，值越大意味着聚类结果与真实情况越吻合。对于随机结果兰德指标并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下，指标应该接近零”，提出了调整兰德系数。

4.1聚类模型的概念（2）调整兰德指标调整兰德指标是兰德指标的一个改进版本，目的是为了去掉随机标签对于兰德指标评估结果的影响，用于衡量两个数据分布的吻合程度。调整兰德指标的取值范围为[-1,1]，值越大意味着聚类结果与真实情况越吻合。（3）调整互信息调整互信息基于预测簇向量与真实簇向量的互信息值衡量其相似度，取值范围[-1,1]，值越大表示相似度越高值接近0表示簇向量随机分配。

4.1聚类模型的概念（4）同质性、完整性和V测度同质性用来度量每个簇只包含单个类别样本的程度，即每个簇中正确分类的样本数占样本总数的比例，即一个簇只包含一个类别的样本则满足同质性。完整性用来度量同类型样本被归类到相同的簇的程度即每个簇中正确分类的样本数占所有相关类型的总样本数的比例之和，即同类别样本被归类到相同簇中则满足完整性。 V测度结合同质性和完整性两个因素评价簇向量间的相似度。

4.2聚类模型的算法原理聚类算法一般可以用基于划分、基于层次、基于密度、基于网格、基于模型、基于图等方式来进行分类聚类模型基于划分的聚类算法k-means算法、k-medoids算法、CLARANS算法基于层次的聚类算法AGNES算法、DIANA算法、BIRCH算法、CURE算法、CHAMELEON算法等基于密度的聚类算法DBSCAN算法、OPTICS算法、DENCLUE算法等基于模型的聚类算法GMM算法、COBWEB算法、SOM算法基于网格的聚类算法STING算法、CLIQUE算法、WAVE-CLUSTER算法

4.2聚类模型的算法原理4.2.1K均值算法 K均值算法是一个迭代求解的聚类算法，其基本思想是将数据集划分为k个簇（k由用户指定），使得每个簇内部的样本数据相似度高，不同簇之间样本数据的差异性大。流程如下：（1）初始化：随机的选择k个样本点作为k个初始的聚类中心（2）对样本进行聚类：计算数据集D中的每个样本到每个聚类中心的距离，将数据分配到与其距离最近的聚类中心所在的簇。（3）计算新的聚类中心：计算当前每个簇的均值作为新的聚类中心。（4）重复（2）~（3），直到满足终止条件。

4.2聚类模型的算法原理4.2.2凝聚聚类算法该算法的基本思想是，首先将每个数据点看作一个独立的类别，然后通过计算不同类别之间的距离，将距离最近的两个类别合并成一个新的类别，直到所有的数据点被合并为一个类别为止。凝聚聚类算法的流程如下：（1）计算所有样本之间的距离，得到距离矩阵。（2）将每个样本都当做一个簇。（3）计算每两个簇之间的距离，将距离