聚类算法分析报告.doc

下载文档

1
0
约1.49万字
约 36页
2024-08-24 发布于广西
举报
版权申诉
保障服务

聚类算法分析报告.doc

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

嵌入式方向工程设计实验报告

评语

成绩

教师：

年月日

学院班级：130712

学生学号：

学生姓名：杨阳

同作者：无

实验日期：2010年12月

聚类算法分析研究

实验环境以及所用到的主要软件

WindowsVista Weka3.6 MATLABR2009a

实验内容描述

聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习”过程，它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法，从算法思想。关键技术和优缺点等方面进行分析概括；另一方面选择一些典型的聚类算法和一些知名的数据集，主要从正确率和运行效率两个方面进行模拟实验，并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行比照分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、缺乏和有待解决的一些问题等。

实验中主要选择了K均值聚类算法、FCM模糊聚类算法并以UCIMachineLearningRepository网站下载的IRIS和WINE数据集为根底通过MATLAB实现对上述算法的实验测试。然后以WINE数据集在学习了解Weka软件接口方面的根底后作聚类分析，使用最常见的K均值〔即K-means〕聚类算法和FCM模糊聚类算法。下面简单描述一下K均值聚类的步骤。

K均值算法首先随机的指定K个类中心。然后：

〔1〕将每个实例分配到距它最近的类中心，得到K个类；

〔2〕计分别计算各类中所有实例的均值，把它们作为各类新的类中心。

重复〔1〕和〔2〕，直到K个类中心的位置都固定，类的分配也固定。

在实验过程中通过利用Weka软件中提供的simpleKmeans〔也就是K均值聚类算法对WINE数据集进行聚类分析，更深刻的理解k均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。然后再在学习了解Weka软件接口方面的根底上对Weka软件进行一定的扩展以参加新的聚类算法来实现基于Weka平台的聚类分析。

实验过程

K均值聚类算法

K均值聚类算法理论

K均值算法是一种硬划分方法，简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K均值算法的划分理论根底是

〔1〕

其中是划分的聚类数，是已经属于第类的数据集是相应的点到第类的平均距离，即

〔2〕

其中表示在数据集中的对象数。

算法的根本过程

任意选择K个对象作为初始的类的中心；

；

根据类中的平均值,将每个数据点(重新)赋给最相近的类；

更新

类的平均值；

不再发生变化,即没有对象进行被重新分配时过程结束。

算法代码分析

K均值聚类算法的代码分析过程如下

首先调用clust_normalize〔〕函数将数据集标准化具体过程如下

data=clust_normalize(data,range);

下面是对K均值算法的初始化

ifmax(size(param.c))==1,

c=param.c;

index=randperm(N);

v=X(index(1:c),:);v=v+1e-10;

v0=X(index(1:c)+1,:);v0=v0-1e-10;

else

v=param.c;

c=size(param.c,1);

index=randperm(N);

v0=X(index(1:c)+1,:);v0=v0+1e-10;

end

iter=0;

接着是迭代求解直到满足要求的解或者到达最大的迭代值

whileprod(max(abs(v-v0))),

iter=iter+1;

v0=v;

fori=1:c

这里是用来计算欧氏距离

dist(:,i)=sum([(X-repmat(v(i,:),N,1)).^2],2);

end

下面将分类结果赋值

[m,label]=min(dist);

distout=sq

聚类算法分析报告.doc 原文免费试下载

您可能关注的文档

文档评论（0）

展翅高飞2020 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

聚类算法分析报告.doc