2014机器学习K-means.docVIP

下载本文档

5
0
约5.24千字
约 13页
2016-12-14 发布于北京
举报
版权申诉

2014机器学习K-means.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习报告非监督学习-----一些聚类算法聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术其中：是第个聚类；为第个聚类中心的样本数；为第个样本的聚类中心。 K次平均算法的聚类准则是：聚类中心的选择应使准则函数的值最小。因此，令解上式得，其中上式表明，类得聚类中心应选为该类样本的均值。算法： Stept1:任选k个初始聚类中心 Stept2:计算每个样本到k个聚类中心的距离，并按最近规则归类。若，则，其中：为聚类中心的样本聚类。在第k次迭代，分配各个样本X到k个聚类中心 Stept3:从第二步的计算结果计算新的聚类中心。，其中上面应经证明，该聚类中心可以使准则函数的值达到最小。 Stept4;若新的聚类中心与前一个聚类中心相等，即则算法收敛，聚类结束。否则，转入第二步。 K均值方法的特点：该算法的特点是运算结果受所选的聚类中心的数目，初始位置，模式样本的几何性质以及读入的次序的影响。在实际运用时，要试探选择不同的K值和起始聚类中心。如果模式样本为N个孤立的区域分布，则一般都能得到收敛结果。 Kmedoid方法 Kmedoid方法同Kmeans方法类似，它们之间的差别就是Kmedoid方法中的最新的聚类中心是集合中的点到原来聚类中心的点最近距离的点，即：聚类中心都是集合中的点。 Stept1:任选k个初始聚类中心 Stept2:计算每个样本到k个聚类中心的距离，并按最近规则归类。若，则，其中：为聚类中心的样本聚类。在第k次迭代，分配各个样本X到k个聚类中心 Stept3：从第二步的计算结果计算新的聚类中心。，其中然后求解问题，得到的X定义为第J类得新的中心。即定义。 Stept4：若新的聚类中心与前一个聚类中心相等，即则算法收敛，聚类结束。否则，转入第二步。通过算法过程可以发现，该算法与Kmeans方法除了第三步不同外，其他的过程都是相同的。下面给出Kmeans方法与Kmedoid方法对同一组数据的聚类结果。该图为Kmeans方法分为3类和4类得结果.可以发现该聚类中心并不是集合中本身的点。图为用Kmeans方法得到的3类和4类的结果从图中可以看出，Kmedoid方法分类中，聚类中心点全是集合本身的点，且与Kmeans方法比较，聚类中心点近似的，且分类结果也差不多。注：Kmeans方法和Kmedoid方法对初始值要求比较敏感，且要求各类的密度差不多。（三)谱聚类为了能在任意形状的样本空间上聚类，且收敛于全局最优解，现研究利用谱方法来聚类。谱方法聚类是由数据点间相似关系建立矩阵，获取该矩阵的前n个特征向量，并且用它们来聚类不同的数据点。谱聚类方法建立在图论中的谱图理论上。谱聚类算法将数据集中的每个对象看作是图的顶点V，将顶点间的相似度量化作为相应顶点连接边E的，这样就得到一个基于相似度的无向G(V, E)，于是聚类问题就可以转化为图的划分问题。基于的最优划分准则就是使划分成的子图内部相似度最大，子图之间的相似度最小。 Shi和MalikEz提出了基于将图划分为两个子图的2-way目标函数Ncut：其中cut(A，B)是子图A，B间的边，又叫“边切集”。其中为连点之间定义的权重。我们可以看出改进后目标函数不仅满足类间样本间的相似度小，也满足类内样本间的相似度大。现令P是A的划分指示向量：其中为A中样本的个数，为B中样本的个数，为样本的总数。那么：问题可转化为：其中，且满足求该问题中的是离散的，为了解决该问题，我们将问题进行放松为连续的情况，转化为： S.t 可得：由L=D-W的性质，该问题的解为矩阵对应的第二最小特征值，取对应的特征向量。对应于第二最小特征值对应的特征向量X2则包含了图的划分信息。人们可以根据启发式规则在X2寻找划分点i，使得值大于等于X2i的划为A类，而小于X2i的划为B类。注：L=D-W称为Laplacian矩阵： Laplacian矩阵是