数据挖掘算法_聚类数据挖掘要点解析.pptVIP

数据挖掘算法_聚类数据挖掘要点解析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘算法 ——聚类数据挖掘 聚类的基本概念 簇(Cluster):一个数据对象的集合 在同一个簇中,对象之间具有相似性; 不同簇中的对象之间是相异的。 聚类(簇)挖掘或分析 把一个给定的数据对象集合分成不同的簇。 组内的对象具有很高的相似性,不同组的对象具有很低的相似性 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤; 应用聚类分析的例子 市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类; 聚类分析的应用实例 聚类分析的应用实例 聚类分析的应用实例 常见的聚类方法--划分聚类方法 划分方法的基本思想是,给定一个n个样本的数据库,划分方法将数据划分为k个划分(k=n),每个划分表示一个簇,同时满足:a.每个簇至少包含一个样本;b.每个样本必须属于且仅属于一个簇 k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。 ⑴首先将所有对象随机分配到k个非空的簇中。 ⑵计算每个簇的平均值,并用该平均值代表相应的簇。 ⑶根据每个对象与各个簇中心的距离,分配给最近的簇。 ⑷然后转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。 k-平均算法 “K” – circa 1967 – this algorithm looks for a fixed number of clusters which are defined in terms of proximity of data points to each other How K-means works Algorithm selects K data points randomly Assigns each of the remaining data points to one of K clusters (via perpendicular bisector) Calculate the centroids of each cluster (uses averages in each cluster to do this) K-means Clustering K-Means Example 基于质心的 k-means聚类算法 坐标表示5个点{X1,X2,X3,X4,X5}作为一个聚类分析的二维样本:X1=(0,2),X2=(0,0),X3=(1.5,0),X4=(5,0),X5=(5,2)。假设要求的簇的数量k=2。 第1步:由样本的随机分布形成两个簇: C1={X1,X2,X4}和C2={X3,X5}。 这两个簇的质心M1和M2是: M1={(0+0+5)/3,(2+0+0)/3}={1.66,0.66}; M2={(1.5+5)/2,(0+2)/2}={3.25,1.00}; 基于质心的 k-means聚类算法 样本初始随机分布之后,方差是: e12=[(0-1.66)2+(2-0.66)2]+[(0-1.66)2+(0-0.66)2]+[(5-1.66)2+(0-0.66)2]=19.36; e22=8.12; 总体平方误差E2=e12+e22=19.36+8.12=27.48 公式 基于质心的 k-means聚类算法 第2步:取距离其中一个质心(M1或M2)最小的距离分配所有样本,簇内样本的重新分布如下: d(M1,X1)=(1.662+1.342)1/2=2.14 d(M2,X1)=3.40 ==X1∈C1; d(M1,X2)=1.79 和 d(M2,X2)=3.40 ==X2∈C1 d(M1,X3)=0.83 和 d(M2,X3)=2.01 ==X3∈C1 d(M1,X4)=3.41 和 d(M2,X4)=2.01 ==X4∈C2 d(M1,X5)=3.60 和 d(M2,X5)=2.01 ==X5∈C2 新簇C1={X1,X2,X3}和C2={X4,X5} 基于质心的 k-means聚类算法 第3步:计算新的质心: M1={0.5,0.67}; M2={5.0,1.0}。 相应的方差及总体平方误差分别是: e12=4.17; e22=2.00; E=6.17; 可以看出第一次迭代后,总体误差显著减小(从值27.48到6.17)。在这个简单的例子中,第一次迭代同时也是最后一次迭代,因为如果继续分析新中心和样本间的距离,样本将会全部分给同样的簇,不再重新分配,算法停止。 常见的聚类方法-

文档评论(0)

挺进公司 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档