- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习Kmeans
机器学习报告
非监督学习-----一些聚类算法
聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术,聚类分析是指事先不了解一批样品中的每个样品的类别或者其他的先验知识,而唯一的分类依据是样品的特征,利用某种相似性度量的方法,把特征相同的或相近的分为一类,实现聚类分析。
下面介绍五种聚类方法,每个算法的使用时有限的,不同的聚类酸腐蚀可以解决不同的问题。
(一)K-means聚类
K均值算法是一种常用的动态聚类算法,K均值算法能够使聚类集中所有样本到聚类中心的距离和最小。原理为:先选K个初始距离中心,计算每个样本到这K个中心的距离,找出最小距离把样本归入最近的聚类中心,然后对中心进行修改,得到新的K个中心,再计算样本到K个中心的距离,重新归类,重新计算中心,修改中心。直到新的聚类中心等于聚类中心则结束。
修改聚类中心的准则函数是:
其中:是第个聚类;为第个聚类中心的样本数;为第个样本的聚类中心。
K次平均算法的聚类准则是:聚类中心的选择应使准则函数的值最小。因此,令
解上式得 , 其中
上式表明,类得聚类中心应选为该类样本的均值。
算法:
Stept1:任选k个初始聚类中心
Stept2:计算每个样本到k个聚类中心的距离,并按最近规则归类。
若,则,其中: 为聚类中心的样本聚类。在第k次迭代,分配各个样本X到k个 聚类中心
Stept3:从第二步的计算结果计算新的聚类中心。
,其中
上面应经证明,该聚类中心可以使准则函数的值达到最小。
Stept4;若新的聚类中心与前一个聚类中心相等,即
则算法收敛,聚类结束。否则,转入第二步。
K均值方法的特点:该算法的特点是运算结果受所选的聚类中心的数目,初始位置,模式样本的几何性质以及读入的次序的影响。在实际运用时,要试探选择不同的K值和起始聚类中心。如果模式样本为N个孤立的区域分布,则一般都能得到收敛结果。
Kmedoid方法
Kmedoid方法同Kmeans方法类似,它们之间的差别就是Kmedoid方法中的最新的聚类中心是集合中的点到原来聚类中心的点最近距离的点,即:聚类中心都是集合中的点。
Stept1:任选k个初始聚类中心
Stept2:计算每个样本到k个聚类中心的距离,并按最近规则归类。
若,则,其中: 为聚类中心的样本聚类。在第k次迭代,分配各个样本X到k个聚 类中心
Stept3:从第二步的计算结果计算新的聚类中心。
,其中
然后求解问题,得到的X定义为第J类得新的中心。 即定义。
Stept4:若新的聚类中心与前一个聚类中心相等,即
则算法收敛,聚类结束。否则,转入第二步。
通过算法过程可以发现,该算法与Kmeans方法除了第三步不同外, 其他的过程都是相同的。
下面给出Kmeans方法与Kmedoid方法对同一组数据的聚类结果。
该图为Kmeans方法分为3类和4类得结果.可以发现该聚类中心并不是集合中本
身的点。
图为用Kmeans方法得到的3类和4类的结果
从图中可以看出,Kmedoid方法分类中,聚类中心点全是集合本身的点,且与Kmeans方法比较,聚类中心点近似的,且分类结果也差不多。
注:Kmeans方法和Kmedoid方法对初始值要求比较敏感,且要求各类的密度差不多。
(三)谱聚类
为了能在任意形状的样本空间上聚类,且收敛于全局最优解,现研究利用谱方法来聚类。谱方法聚类是由数据点间相似关系建立矩阵,获取该矩阵的前n个特征向量,并且用它们来聚类不同的数据点。谱聚类方法建立在图论中的谱图理论上。谱聚类算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的权值,这样就得到一个基于相似度的无向加权图G(V, E),于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。
针对这个问题,Shi和MalikEz提出了基于将图划分为两个子图的2-way目标函数Ncut:
其中cut(A,B)是子图A,B间的边,又叫“边切集”。其中为连点之间定义的权重。
我们可以看出改
原创力文档


文档评论(0)