5 聚类分析课件.ppt

下载文档 降价啦

41
0
约1.8万字
约 108页
2018-11-12 发布于上海
举报
版权申诉
保障服务

5 聚类分析课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

5 聚类分析课件

第五章聚类分析（提纲） 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法（k-均值算法） k-medoids算法（k-中心算法） 5.3.2 层次方法 AGNES算法（合并聚类法） DIANA算法（分裂聚类法） 5.4 孤立点分析第五章聚类分析（提纲） 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法（k-均值算法） k-medoids算法（k-中心算法） 5.3.2 层次方法 AGNES算法（合并聚类法） DIANA算法（分裂聚类法） 5.4 孤立点分析 5.1 聚类分析概述聚类分析的定义聚类分析(Cluster Analysis)是一个将数据集中的所有数据，按照相似性划分为多个类别（Cluster, 簇）的过程；簇是相似数据的集合。聚类分析是一种无监督(Unsupervised Learning)分类方法：数据集中的数据没有预定义的类别标号（无训练集和训练的过程）。要求：聚类分析之后，应尽可能保证类别相同的数据之间具有较高的相似性，而类别不同的数据之间具有较低的相似性。 5.1 聚类分析概述聚类分析在数据挖掘中的作用：作为一个独立的工具来获得数据集中数据的分布情况；作为其他数据挖掘算法的预处理步骤。 5.1 聚类分析概述聚类分析在数据挖掘中的作用：作为一个独立的工具来获得数据集中数据的分布情况；首先，对数据集执行聚类，获得所有簇；然后，根据每个簇中样本的数目获得数据集中每类数据的大体分布情况。作为其他数据挖掘算法的预处理步骤。 5.1 聚类分析概述聚类分析在数据挖掘中的作用：作为一个独立的工具来获得数据集中数据的分布情况；作为其他数据挖掘算法的预处理步骤。首先，对数据进行聚类——粗分类；然后，分别对每个簇进行特征提取和细分类，可以有效提高分类精度。 5.1 聚类分析概述常用的聚类分析方法：划分法（Partitioning Methods）：以距离作为数据集中不同数据间的相似性度量，将数据集划分成多个簇。属于这样的聚类方法有：k-means、k-medoids等。层次法（Hierarchical Methods）：对给定的数据集进行层次分解，形成一个树形的聚类结果。属于这样的聚类方法有：自顶向下法、自底向上法。第五章聚类分析（提纲） 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法（k-均值算法） k-medoids算法（k-中心算法） 5.3.2 层次方法 AGNES算法（合并聚类法） DIANA算法（分裂聚类法） 5.4 孤立点分析 5.2 相似性计算方法在聚类分析中，样本之间的相似性通常采用样本之间的距离来表示。两个样本之间的距离越大，表示两个样本越不相似性，差异性越大；两个样本之间的距离越小，表示两个样本越相似性，差异性越小。特例：当两个样本之间的距离为零时，表示两个样本完全一样，无差异。 5.2 相似性计算方法在聚类分析中，样本之间的相似性通常采用样本之间的距离来表示。样本之间的距离是在样本的描述属性（特征）上进行计算的。在不同应用领域，样本的描述属性的类型可能不同，因此相似性的计算方法也不尽相同。连续型属性(如：重量、高度、年龄等) 二值离散型属性(如：性别、考试是否通过等) 多值离散型属性(如：收入分为高、中、低等) 混合类型属性(上述类型的属性至少同时存在两种) 5.2 相似性计算方法 5.2.1 连续型属性的相似性计算方法 5.2.2 二值离散型属性的相似性计算方法 5.2.3 多值离散型属性的相似性计算方法 5.2.4 混合类型属性的相似性计算方法 5.2 相似性计算方法 5.2.1 连续型属性的相似性计算方法 5.2.2 二值离散型属性的相似性计算方法 5.2.3 多值离散型属性的相似性计算方法 5.2.4 混合类型属性的相似性计算方法 5.2.1 连续型属性的相似性计算方法假设两个样本Xi和Xj分别表示成如下形式： Xi=(xi1, xi2, …, xid ) Xj=(xj1, xj2, …, xjd ) 它们都是d维的特征向量，并且每维特征都是一个连续型数值。对于连续型属性，样本之间的相似性通常采用如下三种距离公式进行计算。 5.2.1 连续型属性的相似性计算方法欧氏距离（Euclidean distance）曼哈顿距离（Manhattan distance）闵可夫斯基距离（Minkowski distance） 5.2.1 连续型属性的相似性计算方法 Euclidean距离和Manhattan距离的性质： d(i,j) ? 0