第10章聚类算法
内容要点1、了解聚类算法的相关理论。2、掌握R语言K均值聚类算法建模的方法。3、掌握R语言凝聚式层次聚类算法建模的方法。
聚类算法概述K均值聚类算法凝聚式层次聚类算法123
聚类算法概述聚类分析(ClusterAnalysis)指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类结果一般分为4~6类。聚类分析的目的在于将相似的事物归类,同一类中的个体有较大的相似性,不同类的个体差异性很大。两个个体间(或变量间)的对应程度或联系紧密程度可以用两种方式来测量。(1)采用描述个体对(变量对)之间的接近程度的指标,?例如,“距离”越小的个体(变量)越具有相似性。(2)采用表示相似程度的指标,例如,“相关系数”越大的个体(变量)越具有相似性。
聚类算法概述聚类算法的类型(1)层次聚类与划分聚类:若允许簇具有子簇,则我们得到一个层次聚类。层次聚类是嵌套簇的集族,组织成一棵树。划分聚类简单地将数据对象划分成不重叠的子集(簇),使得每个数据对象恰在一个子集中。(2)互斥聚类、重叠聚类与模糊聚类:互斥聚类指每个对象都指派到单个簇。重叠聚类或模糊聚类用来反映一个对象同时属于多个组的事实。在模糊聚类中,每个数据对象以一个0和1之间的隶属权值属于每个簇。每个对象与各个簇的隶属权值之和往往是1。(3)完全聚类与部分聚类:完全聚类将每个对象指派到一个簇中。部分聚类中,某些对象可能不属于任何组,如一些噪声对象。
聚类算法概述聚类算法评估的特点不同聚类算法的目标函数相差比较大,没有统一的评价标准。聚类不像分类有一个最优化目标和学习过程,聚类只是一个统计方法,把相似和不相似的数据分开。在很多实际问题中,聚类仅仅是其中的一步,聚类的目的只是观察其是否对最终结果产生好的影响。在数据质量高的情况下,一个好的聚类结果表明了数据中相对稳定的某种模式或者分布,这种现象不会因为个别数据点的变化而改变,并且能够尽可能将数据分开。12
K均值聚类算法K均值聚类算法(K-MeansClusteringAlgorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对划分方法概述划分方法是首先创建K个划分,K为要创建的划分个数;然后利用一个循环定位技术将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括K-Means、K-Medoids、CLARA、CLARANS、FCM。K均值聚类算法的优缺点1.优点(1)速度快。(2)计算简便。2.缺点(1)必须提前知道数据有多少类/组。(2)K-Medians是K-Means的一种变体,是用数据集的中位数而不是均值来计算数据的中心点。(3)K-Medians计算中位数时需要对数据集中的数据进行排序,速度相对于K-Means较慢。
K均值聚类算法K均值聚类算法的流程K均值聚类算法,是聚类算法中最为基础但也最为重要的算法。其算法流程如下。(1)选取数据空间中的K个对象并将其作为初始中心,每个对象代表一个聚类中心;(2)对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,以距离最近为准则,将它们分到距离它们最近的聚类中心(最相似)所对应的类;(3)更新聚类中心,将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;(4)判断聚类中心和目标函数的值是否发生改变,若不变,则输出结果,若改变,则返回步骤(2)。
K均值聚类算法K均值聚类分析案例以R语言基础包自带的鸢尾花(iris)数据进行K均值聚类分析,代码如下:
K均值聚类算法K均值聚类分析案例以R语言基础包自带的鸢尾花(iris)数据进行K均值聚类分析,输出结果为:
K均值聚类算法K均值聚类分析案例kmeans模型将数据分成了3类,每类的数量分别为38、62、50,Clustermeans表示的是3个类别中4个变量的均值。将分类的结果进行可视化,代码如下:结果如图10-1所示。
凝聚式层次聚类算法层次聚类就是通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。按照分类原理的不同,可以分为凝聚和分裂两种方法。由下向上对小的类别进行聚合,是凝聚式层次聚类;一层一层地进行聚类,由上向下把大的类别(Cluster)分割,就是分裂式层次聚类。凝聚式层次聚类概述凝聚式层次聚类是一种自底向上的策略,首先将每个对象都作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终止条件被满足,绝大多数层次聚类方法都属于这一类,它们只是在簇间相似度的定义上有所不同,簇间相似度也就是邻近准则。
凝聚式层次聚类算法1.邻近准则
您可能关注的文档
- R语言大数据分析与挖掘 课件 第八章 分类算法.pptx
- R语言大数据分析与挖掘 课件 第二章 R语言编程基础.pptx
- R语言大数据分析与挖掘 课件 第九章 关联算法.pptx
- R语言大数据分析与挖掘 课件 第六章 时间序列算法.pptx
- R语言大数据分析与挖掘 课件 第七章 线性回归算法.pptx
- R语言大数据分析与挖掘 课件 第三章 数据预处理.pptx
- R语言大数据分析与挖掘 课件 第四章 探索性数据分析.pptx
- R语言大数据分析与挖掘 课件 第五章 数据采集.pptx
- R语言大数据分析与挖掘 课件 第一章 大数据分析与挖掘概论.pptx
- 河北邢台市2025-2026学年高二上学期2月期末语文试题(含解析).docx
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
最近下载
- 长庆一氧化碳中毒事故案例分析.ppt VIP
- 2019创新思维考试.doc VIP
- 数学人教版九年级上册用列举法求概率.2用列举法求概率.pptx VIP
- 《工厂供电》课设计指导书.doc VIP
- 《历代名画记》与《法书要录》.docx VIP
- 心电监护常见心律失常的识别及处理医学64页PPT.pptx VIP
- (网络参考版)广西2025年高考真题历史试卷(含答案).docx VIP
- 中兴VUE-NR高级认证(52-115)练习试题.doc VIP
- 基于改进YOLOv5s算法的城市道路交通场景目标检测研究.pdf VIP
- 高中英语高考复习动词时态专项练习(共70题,附参考答案和解析).docx VIP
原创力文档

文档评论(0)