- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
EM算法与 KMeans算法比较
计 算 机 与 现 代 化
2007年第9期 JISUANJIYUXIANDAIHUA 总第 145期
文章编号:1006-2475(2007)09-O012-O3
EM算法与K—Means算法 比较
黄 颖,李 伟
(江西理工大学信息工程学院,江西赣州341000)
摘要 :聚类是广泛应用的基本数据挖掘方法之一,它按照数据的相似性和差异性将数据分为若干簇,并使得同簇的尽量
相似,不同簇的尽量相异。目前存在大量的聚类算法,本文仪考察 了划分方法中的两个常用算法:EM算法和K—Means算
法,并重点剖析了EM算法,对实验结果进行了分析。最后对算法进行了总结与讨论。
关键词:聚类;K.Means算法;EM算法
中图分类号:TP301.6 文献标识码:A
ComparisonofEM andK-MeansAlgorithms
HUANG Ying,LIWei
(FacultyofIntbnnationEngineering,JiangxiUniversityofSciencenadTechnology,Ganzhou341000,China)
Abstract:Clusteringisoneofbasicdataminingforms,itdividesdatatomnayclustersaccordingtothesimilariytnaddissimilari·
tybetweenthedata.Andthedatainoneclusteralemoresimilarthanothers.Therearemnayclusteringalgorihtms.thispaper
onlyintroducestwocommonclusteringalgorithms:EM algoritmh nadK—Mena salgoritmh ,emphasizesEM algoritmh ,nadatlast,
discussestheresultofthealgoritmh anddrawsaconclusion.
KeywOrds:dustering;K—Meansalgorithm;EM algorithm
K—Means以k为参数,把n个对象分为k个簇 ,以使
0 引 言 簇内具有较高的相似度,而簇间的相似度较低。相似
聚类 (clustering)是数据挖掘最常用 的方法之一 , 度的计算根据一个簇中对象的平均值 (被看作簇的
它是计算机对数据进行 自动组织的方法。它按照数 重心)来进行。
据的相似性和差异性将数据分为若干组,并使得同组 K—Means算法的处理流程如下。首先,随机地选
的尽量相似 ,不同组的尽量相异 。聚类是一种无监督 择k个对象,每个对象初始地代表了一个簇的平均值
学习,完全 由计算机 自动进行而不需要人工干预。 或中心。对剩余的每个对象,根据其与各个簇中心的
目前存在大量的聚类算法。算法的选择取决于 距离,把它赋给最近的簇。然后重新计算每个簇的平
数据的类型、聚类的 目的和应用。大体上,主要的聚 均值。这个过程不断重复,直到准则函数收敛 。通
类算法可 以划分为如下几类:划分方法 (partitioning 常,采用平方误差准则,其定义如下:
method)、层次的方法(hierarchicalmethod)、基于密度 E=∑ :l∑pEc;Ip—miI
的方 法 (density-basedmethod)、基于 网格 的方法 这里的E是数据库中所有对象的平方误差的总
(grid—basedmethod)和基于模型的方法 (model—based 和,P是空间中的
您可能关注的文档
- Dynamically Adjusting Migration Rates for MultiPopulation Genetic Algorithms.pdf
- Dynamically Configured λopt Heuristics for Bus Scheduling.pdf
- Dynamically altering agent behaviors using natural language instructions.pdf
- Dynamically Configuring Communication Services with the Service Configurator Pattern.pdf
- Dynamically EvolvingKlaim Nets.ppt
- Dynamically generating web application fragments from page templates.pdf
- Dynamically generated open and hidden charm mesons.pdf
- Dynamically Formed Heterogeneous Robot Teams Performing TightlyCoordinated Tasks.pdf
- Dynamically Induced MultiChannel Kondo Effect.pdf
- Dynamically induced scalar quark confinement.pdf
- Enabling Autonomic Grid Applications Dynamic Composition, Coordination and Interaction.pdf
- EndNote中实现中英文文献混排的方法.pdf
- EnduserInitiative Application Development based on Architecture of a Model, UI and Compone.pdf
- Engineering and Design STABILITY OF GRAVITY WALLS VERTICAL SHEAR Distribution Restriction S.pdf
- Engineering Note mGPT A Probabilistic Planner Based on Heuristic Search.pdf
- Energy Dependence of the Cronin Effect from NonLinear QCD Evolution.pdf
- Ensuring a Relevant Visiting Order of the Leaf Nodes During a Tree Search.pdf
- Entanglement from the Dynamics of an Ideal Bose Gas in a Lattice.pdf
- EntityFramework在三层架构中的使用.doc
- Entanglement Dynamics in a Dispersively Coupled QubitOscillator System.pdf
文档评论(0)