结合近邻和密度思想的K-均值算法的研究.pdfVIP

下载本文档

6
0
约1.54万字
约 4页
2017-09-12 发布于安徽
举报
版权申诉

结合近邻和密度思想的K-均值算法的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ComputerEngineeringandApplications计算机工程与应用结合近邻和密度思想的均值算法的研究王春风，唐拥政 WANG Chunfeng，TANG Yongzheng 江苏盐城工学院现代教育技术中心，江苏盐城 224051 Modem EducationTechnologyCenter，YanchengInstituteofTechn ology，Yancheng，Jiangsu 224051，China WANG Chunfeng。TAN G Yongzheng．Research ofK-meansalgorithm combinedwith neighborsand density．ComputerEn- gineeringandApplications，2011，47(19)：147-149． Abstract：In orderto solve thedependence of initialclustercenter，a new K-meansalgorithm basedon hte initialcluster centre hasbeenproposed．Thenew algorithm selectsapointhavingthehi曲estdensityastheinitialcenter，andbasedon htecharacteristicsofneighboring ponitsbelong tothe same cluster，findsthepointofhtefurthestdistnacefrom hte initial center．Next，thepointiSaddednito theinitialclustercenterna d iscalculated，hten itiSturned down approach．The initialclus— tercenterdistributionofhteimprovedalgorithm ismorereasonable，thenifluenceofisolatedpointsiseliminated，andtheef- fectofdelineation ismorebetter．The experimentshowshtatthe improved clustering algorithm has higherand morestable accuracy． Keywords：density；neighbors；clusteringalgorihtm；K-menas；clustercenter 摘要：为了解决均值算法对初始聚类中心的依赖性，提出了一种新的选取初始聚类中心的算法。采用数据区内的最高密度点作为初始中心，基于近邻点属于同一聚类的特性，找到距离初始中心最远的点，将其加入初始聚类中心后再进行计算并依次下去的方法。该改进算法的初始聚类中心分布比较合理，而且剔除了孤立点对初始聚类中心的影响，从而可以得到更好的划分效果。实验表明，用改进的算法进行聚类更能够得到较高且稳定的准确率。关键词：密度；近邻；聚类算法；K-均值；聚类中心 DOh10．3778~。issn．1002．8331．2011。19．040 文章编号：1002-8331(2011)19．0147．03 文献标识码：A 中图分类号：TP39 聚类是数据挖掘中的一种重要技术，是分析数据并从中己经收敛Ⅲ。发现有用信息的一种有效手段，具有一定的科学性和客观本算法的一个特点是在每次迭代中都要考察每个样本的性。均值作为聚类分析中一种基本的划分方法，主要优点分类是否正确，若不正确，就要调整。在全部样本调整完后，是算法简单、快速而且能有效地处理大数据集。与系统聚类再修改聚类中心，进入下一次迭代。如果在一次迭代算法中，方法不同的是均值聚类函数不用树结构描述数据中的组，所有的样本被正确分类，则不会有调整，聚类中心也不会有任而是创建单一水平的类。另一个不同在于，均值聚类使用何变化，~{--d=着已经收敛，则算法结束。该算法框架如下：实测值，而不是它们的近似值。这些不同意味着均值聚类 (1)给定大小为n的数据集，令／=1，选取k个初始聚类中方法对于大量数据的分类问题更加合适。