48聚类算法评价.ppt

  1. 1、本文档共102页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
48聚类算法评价.ppt

4.1.1 聚类分析研究的主要内容 (1) 模式表示(包括特征提取和/或选择); (2) 适合于数据领域的模式相似性定义; (3) 聚类或划分算法; (4) 数据摘要; (5) 输出结果的评估。 k-means聚类算法示例-1 例 4.1 对表4-1中二维数据,使用k-means算法将其划分为2个簇,假设初始簇中心选为P7(4,5),P10(5,5)。 表4-1 k-means聚类过程示例数据集1 解:图4-2 显示了对于给定的数据集k-means聚类算法的执行过程。 (1)根据题目,假设划分的两个簇分别为C1和C2,中心分别为(4,5)和(5,5),下面计算10个样本到这2个簇中心的距离,并将10个样本指派到与其最近的簇: (2)第一轮迭代结果如下: 属于簇C1的样本有:{P7,P1,P2,P4,P5,P8} 属于簇C2的样本有:{P10,P3,P6,P9} 重新计算新的簇的中心,有:C1的中心为(3.5,5.167),C2的中心为(6.75,4.25) k-means聚类算法示例-2 (3)继续计算10个样本到新的簇的中心的距离,重新分配到新的簇中,第二轮迭代结果如下: 属于簇C1的样本有:{ P1,P2,P4,P5,P7,P10} 属于簇C2的样本有:{ P3,P6,P8,P9} 重新计算新的簇的中心,有:C1的中心为(3.67,5.83),C2的中心为(6.5,3.25) (4)继续计算10个样本到新的簇的中心的距离,重新分配到新的簇中,发现簇中心不再发生变化,算法终止。 4.2.2 二分k-means算法 二分K-means算法是基本k-means算法的直接扩充,基于如下想法:为了得到k个簇,将所有点的集合分裂成两个簇,从中选择一个继续分裂,如此重复直到产生k个簇。算法详细描述如下: 初始化簇表,使之包含由所有的点组成的簇。 Repeat 从簇表中选取一个簇。 { 对选定的簇进行多次二分“试验” } For i=1 to 试验次数 do 使用基于基本k-means,二分选定的簇 End for 从二分试验中选择具有最小总SSE的两个簇。 将这两个簇添加到簇表中 Until 簇表中包含k个簇 4.2.3 k-means聚类算法的拓展 -1 对于聚类分析而言,聚类表示和数据对象之间相似度的定义是最基础的问题,直接影响数据聚类的效果。 这里介绍一种简单的聚类表示方法,并对Minkowski距离进行推广以使聚类算法可以有效处理含分类属性的数据。 假设数据集D有m个属性,其中有mC个分类属性和mN个数值属性,m=mC+mN ,用Di表示第i个属性取值的集合。 距离计算示例 例4-2 假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录p,q及两个簇C1,C2的信息如下,分别求出记录和簇彼此之间的距离: p={男,广州,18} , q={女,深圳,20} C1={男:25,女:5;广州:20,深圳:6,韶关:4;19} C2={男:3,女:12;汕头:12,深圳:1,湛江:2;24} 按定义4-3,取x=1得到的各距离如下: d(p,q)=1+1+(20-18)=4 d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5 d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8 d(q,C1)=(1-5/30)+(1-6/30)+(20-19)=79/30 d(q,C2)=(1-12/15)+(1-1/15)+(24-20)=77/15 d(C1,C2)=1-(25*3+5*12)/(30*15)+1-6*1/(30*15)+(24-19)=1003/150≈6.69 k-summary算法示例-1 例4-3 对于表4-2所示的数据集,请使用k-summary算法将其划分为3个簇。 表4-2 聚类过程示例数据集2 k-summary算法示例-2 解:(1)假定选择第5条记录{ rainy,68,80,FALSE },第7条记录{overcast,64,65,TRUE}和第10条记录{ rainy,75,80,FALSE }作为三个簇C1、C2和C3的初始中心(摘要)。 (2) 划分对象到最近的簇,各记录与三个簇之间的距离 (使用欧几里得距离) 如下表: k-summary算法示例-3 第一次划分后三个簇的摘要信息更新为: 簇C1:{ rainy:3 ;69.667; 89.000; FALSE:2,TRUE:1}; 簇C2:{ overcast:1,rainy:1,

文档评论(0)

wendang_12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档