基于DKC值的K-means改进聚类算法的研究.pdfVIP

基于DKC值的K-means改进聚类算法的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于DKC值的K-means改进聚类算法的研究.pdf

第 34卷第 1期 企 业 技 术 开 发 2015年 1月 Vo1.34 No.1 TECHNOL0GICAL DEVEL0PMENT OF ENTERPRISE Jan.2015 基于DKC值的K-means改进聚类算法的研究 周 娟 1,2 1.湖南大学 信息科学与工程学院,湖南 长沙 410082;2.湖南安全技术职业学院,湖南 长沙 410151 摘 要:由于K—means算法的中心点是随机选择的,这样会导致聚类结果很不稳定,同时,孤立点的存在也会影响到聚类 的精度,为解决这些问题及二者之间互相牵制,文章基于DCK值来对初始聚类中心进行选择,同时去除数据中的孤立 点,使得聚类中心相对稳定,再利用改进的k-means算法对数据进行聚类,改进后的算法较原始算法更准确。 关键词 :DKC值 ;K—means算法 ;初始点选取 ;孤立点 中图分类号:TP18l 文献标识码 :A 文章编号:1006—8937 2015 01—0024—03 D0I:10.14165/j.cnki.hunansci.2015.O1.009 StudyonK-meansDKC valuebasedonimprovedclusteringalgorithm ZHOUJuan, 1.SchoolofInformationScienceandEngineering,HunanUniversity,Changsha,Hunan410082,China; 2.HunanVocationalInstituteofSafetyTechnology,Changsha,Hunan410151,China Abstract:Tosolvetheproblem thatrandomlyselectedclustercentersinK-meansclusteringalgorithm canleadtouncertaintyof clusteringresultsnadtheclusteringaccuracywillbeaffectedbythepresenceofoutliersandthemutualaffectionbetweenthetwo.In thispaper,theoriginalsampledatasetswillbepreprocessedtoeliminateoutliersbasedontheDCK.Atthesametimetheinitialcluster centerswillbedetermined,whichmakestheclustercenterisrelativelystable.Thenthedatawillbeclusteredbyusingtheimproved k-menasclusteringalgorithm provetobemoreaccuratethna theorigina1. Keywords:DCK;K-meansalgorithm;initialpointselected;outliers 基因表达数据蕴含着人类基因的活动信息,能帮助 类效率低 。 我们深入认识诸多生物过程的本质。而在基因表达数据 目前的研究,主要针对上述的两个缺陷进行改进,对 中,由于基因数据量大,生物网络复杂,如何从大量数据 它们之间的互相作用研究较少。如初始聚类中心的确定 , 中提取出有关基因的结构与功能信息,找出在功能上相 国外学者RedmondSJ结合数据密度分布和KD—Tree进 互关联的基因成为基因表达数据分析的主要 内容。聚类 行选择;国内学者傅德胜、周辰选择相互距离最远的k个 分析成为 目前处理基因表达数据的一种常用的有效技 处于高密度区域的点作为聚类中心。关于孤立点方面的 术 。聚类是将相似的数据聚成一类 ,目前 ,聚类的方法 研究不多 ,虽然张健民提出了一种孤立点过滤的改进算 有多种,常见的聚类方法有基于划分的K—means算法 、 法 ,但没有考虑到初始中心的选择。 k-medoids算法 ;基于层次聚类的CURE、CHEMALOEN算 考虑到上述改进 中均未考虑到两个缺陷的互相影 法;基于密度的DBSCAN、OPTICS算法;基于网格的STING、 响,因此 ,笔者提出一种基于DCK值的改进K—means算法 WaveCluster算法;基于神经网络的SOM算法等。 来消除二者的相互影响。在剔除孤立点和完善初始聚类 K—means算法,是一种经典算法 ,它具有算法简单且 中心后,再用改进的k—means算法进行聚类 ,同时 ,对输 收敛速度快的特点。但该方法也有许多不足:首先,它是 入数据进行加权处理 ,使得聚类结果更准确。 随机选择初始的中心点 ,这样聚类结果波动很大

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档