EM算法与 KMeans算法比较.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
EM算法与 KMeans算法比较

计 算 机 与 现 代 化 2007年第9期 JISUANJIYUXIANDAIHUA 总第 145期 文章编号:1006-2475(2007)09-O012-O3 EM算法与K—Means算法 比较 黄 颖,李 伟 (江西理工大学信息工程学院,江西赣州341000) 摘要 :聚类是广泛应用的基本数据挖掘方法之一,它按照数据的相似性和差异性将数据分为若干簇,并使得同簇的尽量 相似,不同簇的尽量相异。目前存在大量的聚类算法,本文仪考察 了划分方法中的两个常用算法:EM算法和K—Means算 法,并重点剖析了EM算法,对实验结果进行了分析。最后对算法进行了总结与讨论。 关键词:聚类;K.Means算法;EM算法 中图分类号:TP301.6 文献标识码:A ComparisonofEM andK-MeansAlgorithms HUANG Ying,LIWei (FacultyofIntbnnationEngineering,JiangxiUniversityofSciencenadTechnology,Ganzhou341000,China) Abstract:Clusteringisoneofbasicdataminingforms,itdividesdatatomnayclustersaccordingtothesimilariytnaddissimilari· tybetweenthedata.Andthedatainoneclusteralemoresimilarthanothers.Therearemnayclusteringalgorihtms.thispaper onlyintroducestwocommonclusteringalgorithms:EM algoritmh nadK—Mena salgoritmh ,emphasizesEM algoritmh ,nadatlast, discussestheresultofthealgoritmh anddrawsaconclusion. KeywOrds:dustering;K—Meansalgorithm;EM algorithm K—Means以k为参数,把n个对象分为k个簇 ,以使 0 引 言 簇内具有较高的相似度,而簇间的相似度较低。相似 聚类 (clustering)是数据挖掘最常用 的方法之一 , 度的计算根据一个簇中对象的平均值 (被看作簇的 它是计算机对数据进行 自动组织的方法。它按照数 重心)来进行。 据的相似性和差异性将数据分为若干组,并使得同组 K—Means算法的处理流程如下。首先,随机地选 的尽量相似 ,不同组的尽量相异 。聚类是一种无监督 择k个对象,每个对象初始地代表了一个簇的平均值 学习,完全 由计算机 自动进行而不需要人工干预。 或中心。对剩余的每个对象,根据其与各个簇中心的 目前存在大量的聚类算法。算法的选择取决于 距离,把它赋给最近的簇。然后重新计算每个簇的平 数据的类型、聚类的 目的和应用。大体上,主要的聚 均值。这个过程不断重复,直到准则函数收敛 。通 类算法可 以划分为如下几类:划分方法 (partitioning 常,采用平方误差准则,其定义如下: method)、层次的方法(hierarchicalmethod)、基于密度 E=∑ :l∑pEc;Ip—miI 的方 法 (density-basedmethod)、基于 网格 的方法 这里的E是数据库中所有对象的平方误差的总 (grid—basedmethod)和基于模型的方法 (model—based 和,P是空间中的

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档