k均值聚类解说.ppt

下载文档 降价啦

29
0
约1.06千字
约 18页
2017-05-02 发布于湖北
举报
版权申诉
保障服务

k均值聚类解说.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

K-means算法研究K值优化;目录;聚类聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术，聚类技术经常被称为无监督学习。;K-均值聚类又称为C-均值聚类,是根据函数准则进行分类的聚类算法, 使聚类准则函数最小化. ;基本思想; K-均值聚类算法准则函数; K-均值聚类算法准则函数;K-均值聚类算法步骤 ; K-均值聚类算法步骤;聚类示意图（二维）; Bandyopadhyay 等提出了基于遗传算法的GCUK 算法。该算法的染色体采用字符串方式编码，即将每一个初始聚类中心的坐标按顺序编码，没有作为初始聚类中心的数据点则以符号“#”表示，编码完成后在逐代交叉中最终得到最佳的 K 值。; 该算法的缺点是染色体的字符串表示方法大大增加了算法的开销。为了解决该问题，Lin 等采用了二进制方式进行染色体编码。该编码方案采用染色??长度作为数据集的大小，被选为初始聚类中心的数据点编码为 1，否则为 0。 ; Liu 等在此基础上提出了 AGCUK 算法，在染色体编码时为每一个染色体选用 K × m 个基因( K 为随机选取的聚类数目，m 为数据点的维度) ，前 m 个基因表示第一个初始聚类中心的坐标，接着 m 个基因表示第二个初始聚类中心的坐标，以此类推完成编码，; 此外，在遗传过程中算法还运用了最佳个体保留法，把具有最高适应度的个体不经交叉直接遗传到下一代，最终即可得到最佳的K值。; 而巩敦卫等在 Merwe 的研究基础上提出了一种基于微粒群的优化算法。微粒群优化算法是一种群智能优化算法，其算法思想类似于遗传算法，由 Merwe 等首次将其运用于聚类。; 首先初始化微粒群，随机产生一个 K 值，这个K 值在［2，根号N］区间内。随机选取 K 个初始聚类中心，按照事先确定的微粒编码方式编码并在微粒群上运行 K-means 算法，更新微粒的编码结构以及微粒的速度和位置。在算法中引入了一种不同于传统微粒群优化算法的微粒更新运算，即通过新定义的 + 、－运算可以动态改变此前随机选取的 K 值，随后逐代迭代以上步骤，最终使目标函数收敛。; 综合上述研究可以发现，学界已经提出了多种 K值选取???法，并分别基于不同的思想。基于聚类有效性函数的解决方法算法思想简单，但是需要付出较大的时间开销，遗传算法作为一种优秀的优化算法，应用于 K 值的确定是十分有效的。;谢谢观赏