EM算法与 KMeans算法比较.pdfVIP

下载本文档

209
0
约1.17万字
约 3页
2015-09-25 发布于重庆
举报
版权申诉

EM算法与 KMeans算法比较.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

EM算法与 KMeans算法比较

计算机与现代化 2007年第9期 JISUANJIYUXIANDAIHUA 总第 145期文章编号：1006-2475(2007)09-O012-O3 EM算法与K—Means算法比较黄颖，李伟 (江西理工大学信息工程学院，江西赣州341000) 摘要：聚类是广泛应用的基本数据挖掘方法之一，它按照数据的相似性和差异性将数据分为若干簇，并使得同簇的尽量相似，不同簇的尽量相异。目前存在大量的聚类算法，本文仪考察了划分方法中的两个常用算法：EM算法和K—Means算法，并重点剖析了EM算法，对实验结果进行了分析。最后对算法进行了总结与讨论。关键词：聚类；K．Means算法；EM算法中图分类号：TP301．6 文献标识码：A ComparisonofEM andK-MeansAlgorithms HUANG Ying，LIWei (FacultyofIntbnnationEngineering，JiangxiUniversityofSciencenadTechnology，Ganzhou341000，China) Abstract：Clusteringisoneofbasicdataminingforms，itdividesdatatomnayclustersaccordingtothesimilariytnaddissimilari· tybetweenthedata．Andthedatainoneclusteralemoresimilarthanothers．Therearemnayclusteringalgorihtms．thispaper onlyintroducestwocommonclusteringalgorithms：EM algoritmh nadK—Mena salgoritmh ，emphasizesEM algoritmh ，nadatlast， discussestheresultofthealgoritmh anddrawsaconclusion． KeywOrds：dustering；K—Meansalgorithm；EM algorithm K—Means以k为参数，把n个对象分为k个簇，以使 0 引言簇内具有较高的相似度，而簇间的相似度较低。相似聚类 (clustering)是数据挖掘最常用的方法之一，度的计算根据一个簇中对象的平均值 (被看作簇的它是计算机对数据进行自动组织的方法。它按照数重心)来进行。据的相似性和差异性将数据分为若干组，并使得同组 K—Means算法的处理流程如下。首先，随机地选的尽量相似，不同组的尽量相异。聚类是一种无监督择k个对象，每个对象初始地代表了一个簇的平均值学习，完全由计算机自动进行而不需要人工干预。或中心。对剩余的每个对象，根据其与各个簇中心的目前存在大量的聚类算法。算法的选择取决于距离，把它赋给最近的簇。然后重新计算每个簇的平数据的类型、聚类的目的和应用。大体上，主要的聚均值。这个过程不断重复，直到准则函数收敛。通类算法可以划分为如下几类：划分方法 (partitioning 常，采用平方误差准则，其定义如下： method)、层次的方法(hierarchicalmethod)、基于密度 E=∑ ：l∑pEc；Ip—miI 的方法 (density-basedmethod)、基于网格的方法这里的E是数据库中所有对象的平方误差的总 (grid—basedmethod)和基于模型的方法 (model—based 和，P是空间中的