网站大量收购独家精品文档,联系QQ:2885784924

聚类算法介绍.doc

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
课程名称: 数据挖掘 实验项目: 聚类算法分析研究 班 级: 学 号: 学生姓名: 聚类算法分析研究 实验环境以及所用到的主要软件 Windows VistaNetBeans6.5.1 Weka3.6 MATLAB R2009a 实验内容描述 聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习” 过程,它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法,从算法思想。关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。 实验中主要选择了K均值聚类算法、FCM模糊聚类算法并以UCI Machine Learning Repository网站下载的数据集在学习了解Weka软件接口方面的基础作聚类分析,使用最常见的K均值(即K-means)聚类算法和FCM模糊聚类算法。下面简单描述一下K均值聚类的步骤。 K均值算法首先随机的指定K个类中心。然后: (1)将每个实例分配到距它最近的类中心,得到K个类; (2)计分别计算各类中所有实例的均值,把它们作为各类新的类中心。 重复(1)和(2),直到K个类中心的位置都固定,类的分配也固定。 在实验过程中通过利用Weka软件中提供的simpleKmeans(也就是K均值聚类算法对WINE数据集进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。然后再在学习了解Weka软件接口方面的基础上对Weka软件进行一定的扩展以加入新的聚类算法来实现基于Weka平台的聚类分析。 K均值聚类算法 K均值聚类算法理论 K均值算法是一种硬划分方法,简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K均值算法的划分理论基础是 (1) 其中是划分的聚类数,是已经属于第类的数据集是相应的点到第类的平均距离,即 (2) 其中表示在数据集中的对象数。 算法的基本过程 任意选择K个对象作为初始的类的中心; ; 根据类中的平均值,将每个数据点 (重新)赋给最相近的类; 更新 类的平均值; 不再发生变化,即没有对象进行被重新分配时过程结束。 算法代码分析 K均值聚类算法的代码分析过程如下 首先调用clust_normalize()函数将数据集标准化具体过程如下 data=clust_normalize(data,range); 下面是对K均值算法的初始化 if max(size(param.c))==1, c = param.c; index=randperm(N); v=X(index(1:c),:);v = v + 1e-10; v0=X(index(1:c)+1,:);v0 = v0 - 1e-10; else v = param.c; c = size(param.c,1); index=randperm(N); v0=X(index(1:c)+1,:);v0 = v0 + 1e-10; end iter = 0; 接着是迭代求解直到满足要求的解或者达到最大的迭代值 while prod(max(abs(v - v0))), iter = iter +1; v0 = v; for i = 1:c 这里是用来计算欧氏距离 dist(:,i) = sum([(X - repmat(v(i,:),N,1)).^2],2); end 下面将分类结果赋值 [m,label] = min(dist); distout=sqrt(dist); 下面计算分类中心 for i = 1:c index=find(label == i); if ~isempty(index) v(i,:

文档评论(0)

阿里山的姑娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档