数据聚类实验报告(附代码).docVIP

下载本文档

11
0
约9.18千字
约 9页
2019-07-09 发布于浙江
举报
版权申诉

数据聚类实验报告(附代码).doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实验题目：数据聚类实验 1 实验目的（1）了解常用聚类算法及其优缺点；（2）掌握k-means聚类算法对数据进行聚类分析的基本原理和划分方法。（3）利用k-means聚类算法对“ch7 iris.txt”数据集进行聚类实验。（4）熟悉使用matlab进行算法的实现。 2 实验步骤 2.1 算法原理聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。 k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高，所以在对大规模数据进行聚类时被广泛应用。目前，许多算法均围绕着该算法进行扩展和改进。 k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常，采用平方误差准则，其定义如下：，这里E是数据集中所有对象的平方误差的总和，p是空间中的点，是簇的平均值。该目标函数使生成的簇尽可能紧凑独立，使用的距离度量是欧几里得距离,当然也可以用其他距离度量。本实验便采用k-means聚类方法对样本数据对象进行聚类。该方法易实现，对不存在极大值的数据有很好的聚类效果，并且对大数据集有很好的伸缩性。 2.2 算法流程本实验采用的是k-means聚类算法，类中心的选择基于簇中对象的平均值。（1）获取用户的类中心数目k和具有n个对象的数据集；（2）任意选取k个对象作为初始的簇中心；（3）根据簇中对象的平均值，将每个对象重新赋给最类似的簇；（4）更新簇的平均值，即类中心，重新计算每个簇中对象的平均值；（5）如果新的平均值发生改变，转至（2）步；（6）新的平均值不在发生改变，算法聚类结束。 2.2 算法流程图开始选择k值，选取k个对象作为平均值聚类对新生成的簇重新计算平均值 Y 新的平均值改变 N 结束图1 k-means算法流程图 k-means算法流程图，如图1所示。 k-means算法中的k，由用户输入，最终得到的类别数即为用户输入的数目。聚类过程中，涉及到初始类中心的选择。在程序中，对于类中心，是选择前k个作为初始类中心，对于数据的组织，前k个数据有较大差别，可以提高程序的运行效率和分类结果的准确率。 3 实验结果分析在实验中，利用k-means聚类算法对“ch7 iris.txt”数据集进行聚类实验。当k=3时，k-means算法聚类效果如图2所示：图2 k=3时聚类效果当k=4时，k-means算法聚类效果如图3所示：图3 k=4时聚类效果 K-means聚类算法的收敛性和初值的选取有关。初始的聚类中心的不同，对聚类结果没有很大的影响，而对迭代次数有显著的影响。数据的输入顺序不同，同样影响迭代次数，而对聚类结果没有太大的影响。 4 实验结论 K-means聚类算法对于类别数的选择k值有较高的要求，如果类别数较少，则不能区分数据。K-means聚类算法找出平均误差最小的k个划分。当结果簇是密集的，而簇与簇之间的区别明显时，它的效果较好。该算法只有在簇的平均值被定义的情况下才能使用。对于初始类中心的选择，特别重要。对于分类的准确