- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5 聚类分析课件
第五章 聚类分析(提纲) 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法(k-均值算法) k-medoids算法(k-中心算法) 5.3.2 层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 5.4 孤立点分析 第五章 聚类分析(提纲) 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法(k-均值算法) k-medoids算法(k-中心算法) 5.3.2 层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 5.4 孤立点分析 5.1 聚类分析概述 聚类分析的定义 聚类分析(Cluster Analysis)是一个将数据集中的所有数据,按照相似性划分为多个类别(Cluster, 簇)的过程; 簇是相似数据的集合。 聚类分析是一种无监督(Unsupervised Learning)分类方法:数据集中的数据没有预定义的类别标号(无训练集和训练的过程)。 要求:聚类分析之后,应尽可能保证类别相同的数据之间具有较高的相似性,而类别不同的数据之间具有较低的相似性。 5.1 聚类分析概述 聚类分析在数据挖掘中的作用: 作为一个独立的工具来获得数据集中数据的分布情况; 作为其他数据挖掘算法的预处理步骤。 5.1 聚类分析概述 聚类分析在数据挖掘中的作用: 作为一个独立的工具来获得数据集中数据的分布情况; 首先,对数据集执行聚类,获得所有簇; 然后,根据每个簇中样本的数目获得数据集中每类数据的大体分布情况。 作为其他数据挖掘算法的预处理步骤。 5.1 聚类分析概述 聚类分析在数据挖掘中的作用: 作为一个独立的工具来获得数据集中数据的分布情况; 作为其他数据挖掘算法的预处理步骤。 首先,对数据进行聚类——粗分类; 然后,分别对每个簇进行特征提取和细分类,可以有效提高分类精度。 5.1 聚类分析概述 常用的聚类分析方法: 划分法(Partitioning Methods):以距离作为数据集中不同数据间的相似性度量,将数据集划分成多个簇。 属于这样的聚类方法有:k-means、k-medoids等。 层次法(Hierarchical Methods):对给定的数据集进行层次分解,形成一个树形的聚类结果。 属于这样的聚类方法有:自顶向下法、自底向上法。 第五章 聚类分析(提纲) 5.1 聚类分析概述 5.2 相似性计算方法 5.3 常用聚类方法 5.3.1 划分方法 k-means算法(k-均值算法) k-medoids算法(k-中心算法) 5.3.2 层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 5.4 孤立点分析 5.2 相似性计算方法 在聚类分析中,样本之间的相似性通常采用样本之间的距离来表示。 两个样本之间的距离越大,表示两个样本越不相似性,差异性越大; 两个样本之间的距离越小,表示两个样本越相似性,差异性越小。 特例:当两个样本之间的距离为零时,表示两个样本完全一样,无差异。 5.2 相似性计算方法 在聚类分析中,样本之间的相似性通常采用样本之间的距离来表示。 样本之间的距离是在样本的描述属性(特征)上进行计算的。 在不同应用领域,样本的描述属性的类型可能不同,因此相似性的计算方法也不尽相同。 连续型属性(如:重量、高度、年龄等) 二值离散型属性(如:性别、考试是否通过等) 多值离散型属性(如:收入分为高、中、低等) 混合类型属性(上述类型的属性至少同时存在两种) 5.2 相似性计算方法 5.2.1 连续型属性的相似性计算方法 5.2.2 二值离散型属性的相似性计算方法 5.2.3 多值离散型属性的相似性计算方法 5.2.4 混合类型属性的相似性计算方法 5.2 相似性计算方法 5.2.1 连续型属性的相似性计算方法 5.2.2 二值离散型属性的相似性计算方法 5.2.3 多值离散型属性的相似性计算方法 5.2.4 混合类型属性的相似性计算方法 5.2.1 连续型属性的相似性计算方法 假设两个样本Xi和Xj分别表示成如下形式: Xi=(xi1, xi2, …, xid ) Xj=(xj1, xj2, …, xjd ) 它们都是d维的特征向量,并且每维特征都是一个连续型数值。 对于连续型属性,样本之间的相似性通常采用如下三种距离公式进行计算。 5.2.1 连续型属性的相似性计算方法 欧氏距离(Euclidean distance) 曼哈顿距离(Manhattan distance) 闵可夫斯基距离(Minkowski distance) 5.2.1 连续型属性的相似性计算方法 Euclidean距离和Manhattan距离的性质: d(i,j) ? 0
您可能关注的文档
最近下载
- 液体伤口敷料产品技术要求标准2023版.docx VIP
- 《水利工程外观质量评定规程DB34∕T 4010-2021》知识培训.pptx VIP
- DLT741-2023年架空送电线路运行规程.docx
- 并网光伏电站项目工程现场电气二次施工方案.doc
- 英语新课标背景下:非纸笔测试在小学英语期末评价中的实践研究.pdf VIP
- 股市实战绝技汇总篇(精华).doc VIP
- 历年行情的十大牛股.doc VIP
- 安徽省六校联考暨安徽六校教育研究会2026届高三入学素质检测-物理试卷答案.docx VIP
- 基于Ansys CFX的风扇叶片双向流固耦合分析.docx VIP
- (高清版)DB1307∕T 334-2020 蛋鸡无抗养殖技术规范.pdf VIP
文档评论(0)