k均值聚类分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1案例题目: 选取一组点(三维或二维),在空间内绘制出来,之后根据K均值聚类,把这组点分为n类。 此例中选取的三维空间内的点由均值分别为(0,0,0),(4,4,4),(-4,4,-4),协方差分别为, ,的150个由mvnrnd函数随机生成。 2原理运用与解析: 2.1聚类分析的基本思想 聚类分析是根据“物以类聚”的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类。对于所选定的属性或特征,每组内的模式都是相似的,而与其他组的模式差别大。一类主要方法是根据各个待分类模式的属性或特征相似程度进行分类,相似的归为一类,由此将待分类的模式集分成若干个互不重叠的子集,另一类主要方法是定义适当的准则函数运用有关的数学工具进行分类。由于在分类中不需要用训练样本进行学习和训练,故此类方法称为无监督分类。 聚类的目的是使得不同类别的个体之间的差别尽可能的大,而同类别的个体之间的差别尽可能的小。聚类又被称为非监督分类,因为和分类学习相比,分类学习的对象或例子有类别标记,而要聚类的例子没有标记,需要由聚类分析算法来自动确定,即把所有样本作为未知样本进行聚类。因此,分类问题和聚类问题根本不同点为:在分类问题中,知道训练样本例的分类属性值,而在聚类问题中,需要在训练样例中找到这个分类属性值。 聚类分析的基本思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系)。研究样本或变量的亲疏程度的数量指标有两种:一种叫相似系数,性质越接近的样本或变量,它们的相似系数越接近1或-1,而彼此无关的变量或样本它们的相似系数越接近0,相似的为一类,不相似的为不同类。另一种叫距离,它是将每一个样本看做p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 2.2动态聚类法思想 动态聚类方法、亦称逐步聚类法.一类聚类法.属于大样本聚类法。具体作法是:先粗略地进行预分类,然后再逐步调整,直到把类分得比较合理为止。这种分类方法较之系统聚类法,具有计算量较小、占用计算机存贮单元少、方法简单等优点,所以更适用于大样本的聚类分析,是一种普遍被采用的方法。这种方法具有以下三个要素: 选定某种距离度量作为样本间的相似性度量; 确定某种可以评价聚类结果质量的准则函数; 给定某个初始分类,然后用迭代算法找出使得准则函数取极值的最好聚类结果。 动态聚类法在计算迭代过程中,类心会随着迭代次数进行修正和改变。动态聚类法的基本步骤: 选取初始聚类中心及有关参数,进行初始聚类。 计算模式和聚类的距离,调整模式的类别。 计算各聚类的参数,删除,合并或分裂一些聚类。 从初始聚类开始,运用迭代算法动态地改变模式的类别和聚类的中心,使准则函数取极值或设定的参数达到设计要求时停止。 2.3K-均值聚类算法的思想 K-均值算法是一种基于划分的聚类算法,它通过不断的迭代过程来进行聚类,当算法收敛到一个结束条件时就终止迭代过程,输出聚类结果。由于其算法思想简便,又容易实现,因此K一均值算法己成为一种目前最常用的聚类算法之一。 K-均值算法解决的是将含有n个数据点(实体)的集合 划分为k个类 的问题,其中 ,算法首先随机选取k个数据点作为k个类的初始类中心,集合中每个数据点被划分到与其距离最近的类中心所在的类中,形成了k个聚类的初始分布。对分配完的每一个类计算新的类中心,然后继续进行数据分配的过程,这样迭代若干次之后,若类中心不再发生变化,则说明数据对象全部分配到自己所在的类中,证明函数收敛。在每一次的迭代过程中都要对全体数据点的分配进行调整,然后重新计算类中心,进入下一次迭代过程,若在某一次迭代过程中,所有数据点的位置没有变化,相应的类中心也没有变化,此时标志着聚类准则函数已经收敛,算法结束。通常采用的目标函数形式为平方误差准则函数: 其中, 为数据对象, 表示类 的质心,E则表示数据集中所有对象的误差平方和。该目标函数采用欧氏距离。 K-均值聚类算法的过程描述如下: 任选k个模式特征矢量作为初始聚类中心: ,令k=0. 将待分类的模式识别特征矢量集 中的模式逐个按最小距离原则分划给k类中的某一类,即 如果 , ,则判 式中, 表示 和 的中心 的距离,上标表示迭代次数,于是产生新的聚类 计算重新分类后的各类心 式中,为类中所含模式的个数。 如果 ,则结束;否则, ,转至步骤(2)。 3.结果分析 在二维和三维空间里,原样本点为蓝色,随机选取样本点中的四个点作为中心,用*表示,其他对象根据与这四个聚类中心(对象)的距离,根据最近距离原则,逐个分别聚类到这四个聚类中心所代表的聚类中,每完成一轮聚类,聚类的中心会发生相应的改变,之后更

文档评论(0)

wx171113 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档