k均值聚类解说.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
K-means算法研究K值优化;目录;聚类 聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,聚类就是一种发现这种内在结构的技术,聚类技术经常被称为无监督学习。;K-均值聚类又称为C-均值聚类,是根据函数准则进行分类的聚类算法, 使聚类准则函数最小化. ;基本思想; K-均值聚类算法准则函数; K-均值聚类算法准则函数;K-均值聚类算法步骤 ; K-均值聚类算法步骤;聚类示意图(二维); Bandyopadhyay 等提出了基于遗传算法的GCUK 算法。该算法的染色体采用字符串方式编码, 即将每一个初始聚类中心的坐标按顺序编码,没有作 为初始聚类中心的数据点则以符号“#”表示,编码完 成后在逐代交叉中最终得到最佳的 K 值。; 该算法的缺 点是染色体的字符串表示方法大大增加了算法的开销。为了解决该问题,Lin 等采用了二进制方式进 行染色体编码。该编码方案采用染色??长度作为数据 集的大小,被选为初始聚类中心的数据点编码为 1,否则为 0。 ; Liu 等在此基础上提出了 AGCUK 算法,在染色 体编码时为每一个染色体选用 K × m 个基因( K 为随 机选取的聚类数目,m 为数据点的维度) ,前 m 个基因 表示第一个初始聚类中心的坐标,接着 m 个基因表示 第二个初始聚类中心的坐标,以此类推完成编码,; 此外,在遗传过程中 算法还运用了最佳个体保留法,把具有最高适应度的个体不经交叉直接遗传到下一代,最终即可得到最佳的K值。; 而巩敦卫等在 Merwe 的研究基础上提出了一种基于微粒群的优化算法。微粒群优化算法是一种群智能优化算法,其算法思想类似于 遗传算法,由 Merwe 等首次将其运用于聚类。; 首先初始化微 粒群,随机产生一个 K 值,这个K 值在[2,根号N]区 间 内。随机选取 K 个初始聚类中心,按照事先确定的微 粒编码方式编码并在微粒群上运行 K-means 算法,更 新微粒的编码结构以及微粒的速度和位置。在算法中引入了一种不同于传统微粒群优化算法的微粒更新运算,即通过新定义的 + 、- 运算可以动态改变此前随机 选取的 K 值,随后逐代迭代以上步骤,最终使目标函数收敛。; 综合上述研究可以发现,学界已经提出了多种 K值选取???法,并分别基于不同的思想。基于聚类有效 性函数的解决方法算法思想简单,但是需要付出较大 的时间开销,遗传算法作为一种优秀的优化算法,应用 于 K 值的确定是十分有效的。;谢谢观赏

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档