- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DataMiningandDataAnalysiswithR数据挖掘与数据分析:基于R语言合作QQ:243001978层次聚类
合作QQ:243001978算法原理01算法示例02模型理解03R语言编程04章节内容
8.1算法原理图8-1层次聚类树状图和嵌套簇图聚类分析是一种典型的无监督学习,将未知类别的样本按照一定的规则划分成不同的类或簇,从而揭示样本之间的内在性质和相互之间的联系。聚类被广泛应用于医学、生物学、市场营销、心理学和数据挖掘等领域。层次聚类是最常用的聚类方法之一,它通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树,如图8-1所示。自下而上的凝聚法(Agglomerative)和自顶向下的分裂法(Divisive)是两种层次聚类的基本方法。
凝聚层次聚类凝聚层次聚类是一种常见的聚类方法,从单个样本点作为类开始,不断合并最相似的两个类,直到所有类聚成一类为止。算法步骤如下:①定义每个观测值(样本点)为一类;②计算任意两类之间的距离,度量样本间的相似度;③合并距离最近(相似度最高)的两个类;④重复步骤②和③,直到所有类合并为一类。在上述过程中,最重要的环节是计算样本点间、类之间的距离,下面将介绍具体距离度量准则。
凝聚层次聚类??
凝聚层次聚类类之间距离度量:最小距离:将两个类中距离最近的样本间的距离定义为两个聚类间的距离。最大距离:将两个类中距离最远的样本间的距离定义为两个聚类间的距离。
凝聚层次聚类?
凝聚层次聚类?
分裂层次聚类合作QQ:243001978分裂层次聚类先将所有样本作为一类,然后找出类中距离最远的两个簇并进行分裂,不断重复直到每个样本为一类。算法步骤如下:①定义所有观测值(样本点)为一类;②计算任意两样本点之间的距离;③找出同一类中距离最远的两个样本点a和b,分别作为两个簇的中心;④若类中剩余的样本点距离类中心a更近,将其分配到以a为中心的类中,否则分配到以b为中心的类中;⑤重复步骤③和④,直到每个观测值为一类。
8.2算法示例图8-65个二维点的集合例8-1:使用最小距离度量类之间的相似度,对如图8-2的样本数据进行凝聚层次聚类。点X坐标Y坐标p10.410.53p20.340.28p30.670.43p40.160.38p50.450.30表8-15个点的坐标p1p2p3p4p5p10.0000.2600.2790.2920.233p20.2600.0000.3620.2060.112p30.2790.3620.0000.5120.256p40.2920.2060.5120.0000.301p50.2330.1120.2560.3010.000表8-25个点的欧式距离矩阵
8.2算法示例p1p2p3p4p5p10.0000.2600.2790.2920.233p20.2600.0000.3620.2060.112p30.2790.3620.0000.5120.256p40.2920.2060.5120.0000.301p50.2330.1120.2560.3010.000?p1{p2,p5}p3p4p10.0000.2330.2790.292{p2,p5}0.2330.0000.2560.206p30.2790.2560.0000.512p40.2920.2060.5120.000更新2.继续找出距离最近的两个簇{p2,p5}和p4,合并为{p2,p4,p5},并更新距离矩阵。p1{p2,p5}p3p4p10.0000.2330.2790.292{p2,p5}0.2330.0000.2560.206p30.2790.2560.0000.512p40.2920.2060.5120.000更新p1{p2,p4,p5}p3p10.0000.2330.279{p2,p4,p5}0.2330.0000.256p30.2790.2560.000
8.2算法示例3.接着继续找出距离最近的两个簇{p2,p4,p5}和p1,合并为{p1,p2,p4,p5},更新距离矩阵。4.最后合并剩下的两个簇,即获得最终结果,如下图所示。在树状图中两个簇合并处的高度反映两个簇的距离,例如p2和p5间距离为0.112,即为树状图中两个簇合并时对应的高度。更新p1{p2,p4,p5}p3p10.0000.2330.279{p2,p4,p5}0.2330.0000.256p30.2790.2560.000{p1,p2,p4,p5}p3{p1,p2,p4,p5}0.0000.256p30.2560.000图8-7凝聚层次聚类结果
8.2算法示例例8-2:使用最小距离度量类之间的相似度,对如图8-2的样本数据(例8-1中的相同数据)进行分
文档评论(0)