基于聚类数和初始值的K-means算法改进研究.pdfVIP

下载本文档

7
0
约1.85万字
约 5页
2017-05-11 发布于河南
举报
版权申诉

基于聚类数和初始值的K-means算法改进研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类数和初始值的K-means算法改进研究

第 4期组合机床与自动化加工技术 NO．4 2011年 4月 M odularMachineTool AutomaticManufacturingTechnique Apr．2011 文章编号：1001—2265(2011)04—0042—05 基于聚类数和初始值的K—means算法改进研究屈新怀，高万里，丁必荣，李朕 (合肥工业大学机械与汽车工程学院，合肥 230009) 摘要：原始的K．means算法，随机生成初始质心，事先给定聚类数 k，在该前提下进行聚类，大大降低了聚类的效果。文章是对原始 K—means算法的改进，提出了一种基于密度选取初始质心和采取遗传算法优化聚类数而的算法。该算法在一定程度上解决了初始质心和聚类数 k对聚类精度和效率的影响，提高了聚类的准确率。最后文章通过实验证明了改进算法的有效性。关键词：K—means算法；初始质心；聚类数 k 中图分类号：TP301．6 文献标识码：A TheK-meansAlgorithm ImprovementBaseon theNumberofClusteringkandInitialCentroid QUXin-huai，GAOWang-li，DIMGBi—rong，LIZhen (SchoolofMachineryandAutomobileEngineering，HefeiUniversityofTechnology，Hefei230009，China) Abstract：IntheoriginalK-meansalgorithm，clusteringcanbedonewiththeinitialeentroidgeneratedrail· domly andthenumberofclustering given inadvance，anditreducestheeffectofclusterniggreatly．In thisPaper，weimprovetheoriginalK—meansalogrithm ，andproposeanew algorithm thattheniitialten- troidischosebythedensityandthenumberofclusteringkisoptim~edbygeneticalgorithm．Toacertain degree，thisalgorithm mniimizetheeffectsofinitialcentroidandthenumberofclustering onthecluste· ringaccuracy nad efficiency，and enhancetheaccuracy ofclustering．W eprovethevalidity ofthisim。 provedalogrithm by experimentattheendofthispaper． Keywords：K-meansalogrithm ；initialcentroid；clusternigk 能够识别密集的和稀疏的区域，从而发现全局的分 0 引言布模式，以及数据属性之间的有趣的相互联系。当今，数据容量规模已经达到万亿字节的水平，目前存在大量的聚类算法，而算法主要取决于信息爆炸带来的挑战一方面是数据体系规模庞大复所研究数据的类型、聚类的目的和应用等方面。在杂；另一方面是如何从大量数据中发现隐藏的有价基于划分的聚类算法中，作为典型代表的K—means 值的信息，数据挖掘的出现，为我们解决该问题提供