数据挖掘算法_聚类数据挖掘要点解析.pptVIP

下载本文档

16
0
约5千字
约 31页
2016-04-23 发布于湖北
举报
版权申诉

数据挖掘算法_聚类数据挖掘要点解析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘算法 ——聚类数据挖掘聚类的基本概念簇（Cluster）:一个数据对象的集合在同一个簇中，对象之间具有相似性；不同簇中的对象之间是相异的。聚类（簇）挖掘或分析把一个给定的数据对象集合分成不同的簇。组内的对象具有很高的相似性，不同组的对象具有很低的相似性典型的应用作为一个独立的分析工具，用于了解数据的分布；作为其它算法的一个数据预处理步骤；应用聚类分析的例子市场销售: 帮助市场人员发现客户中的不同群体，然后用这些知识来开展一个目标明确的市场计划；土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区；保险: 对购买了汽车保险的客户，标识那些有较高平均赔偿成本的客户；城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅；地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类；聚类分析的应用实例聚类分析的应用实例聚类分析的应用实例常见的聚类方法--划分聚类方法划分方法的基本思想是，给定一个n个样本的数据库，划分方法将数据划分为k个划分（k=n），每个划分表示一个簇，同时满足：a.每个簇至少包含一个样本；b.每个样本必须属于且仅属于一个簇 k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。 ⑴首先将所有对象随机分配到k个非空的簇中。 ⑵计算每个簇的平均值，并用该平均值代表相应的簇。 ⑶根据每个对象与各个簇中心的距离，分配给最近的簇。 ⑷然后转第二步，重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。 k-平均算法 “K” – circa 1967 – this algorithm looks for a fixed number of clusters which are defined in terms of proximity of data points to each other How K-means works Algorithm selects K data points randomly Assigns each of the remaining data points to one of K clusters (via perpendicular bisector) Calculate the centroids of each cluster (uses averages in each cluster to do this) K-means Clustering K-Means Example 基于质心的 k－means聚类算法坐标表示5个点｛X1,X2,X3,X4,X5｝作为一个聚类分析的二维样本：X1＝（0,2），X2＝（0,0），X3＝（1.5,0），X4＝（5,0），X5＝（5,2）。假设要求的簇的数量k=2。第1步：由样本的随机分布形成两个簇： C1＝｛X1,X2,X4｝和C2＝｛X3,X5｝。这两个簇的质心M1和M2是： M1＝｛(0+0+5)/3,(2+0+0)/3｝＝｛1.66，0.66｝； M2＝｛（1.5+5）/2，（0+2）/2｝＝｛3.25，1.00｝；基于质心的 k－means聚类算法样本初始随机分布之后，方差是： e12=[(0-1.66)2+(2-0.66)2]+[(0-1.66)2+(0-0.66)2]+[(5-1.66)2+(0-0.66)2]=19.36； e22=8.12；总体平方误差E2＝e12+e22＝19.36+8.12＝27.48 公式基于质心的 k－means聚类算法第2步：取距离其中一个质心（M1或M2）最小的距离分配所有样本，簇内样本的重新分布如下： d(M1,X1)=(1.662+1.342)1/2=2.14 d(M2,X1)=3.40 ==X1∈C1； d(M1,X2)=1.79 和 d(M2,X2)=3.40 ==X2∈C1 d(M1,X3)=0.83 和 d(M2,X3)=2.01 ==X3∈C1 d(M1,X4)=3.41 和 d(M2,X4)=2.01 ==X4∈C2 d(M1,X5)=3.60 和 d(M2,X5)=2.01 ==X5∈C2 新簇C1＝｛X1,X2,X3｝和C2＝｛X4,X5｝基于质心的 k－means聚类算法第3步：计算新的质心： M1＝｛0.5，0.67｝； M2＝｛5.0，1.0｝。相应的方差及总体平方误差分别是： e12＝4.17； e22＝2.00； E＝6.17；可以看出第一次迭代后，总体误差显著减小（从值27.48到6.17）。在这个简单的例子中，第一次迭代同时也是最后一次迭代，因为如果继续分析新中心和样本间的距离，样本将会全部分给同样的簇，不再重新分配，算法停止。常见的聚类方法-