基于DKC值的K-means改进聚类算法的研究.pdfVIP

下载本文档

9
0
约6.7千字
约 3页
2018-04-10 发布于湖北
举报
版权申诉

基于DKC值的K-means改进聚类算法的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于DKC值的K-means改进聚类算法的研究.pdf

第 34卷第 1期企业技术开发 2015年 1月 Vo1．34 No．1 TECHNOL0GICAL DEVEL0PMENT OF ENTERPRISE Jan．2015 基于DKC值的K-means改进聚类算法的研究周娟 1,2 1．湖南大学信息科学与工程学院，湖南长沙 410082；2．湖南安全技术职业学院，湖南长沙 410151 摘要：由于K—means算法的中心点是随机选择的，这样会导致聚类结果很不稳定，同时，孤立点的存在也会影响到聚类的精度，为解决这些问题及二者之间互相牵制，文章基于DCK值来对初始聚类中心进行选择，同时去除数据中的孤立点，使得聚类中心相对稳定，再利用改进的k-means算法对数据进行聚类，改进后的算法较原始算法更准确。关键词：DKC值；K—means算法；初始点选取；孤立点中图分类号：TP18l 文献标识码：A 文章编号：1006—8937 2015 01—0024—03 D0I：10．14165／j．cnki．hunansci．2015．O1．009 StudyonK-meansDKC valuebasedonimprovedclusteringalgorithm ZHOUJuan， 1．SchoolofInformationScienceandEngineering，HunanUniversity，Changsha，Hunan410082，China； 2．HunanVocationalInstituteofSafetyTechnology，Changsha，Hunan410151，China Abstract：Tosolvetheproblem thatrandomlyselectedclustercentersinK-meansclusteringalgorithm canleadtouncertaintyof clusteringresultsnadtheclusteringaccuracywillbeaffectedbythepresenceofoutliersandthemutualaffectionbetweenthetwo．In thispaper，theoriginalsampledatasetswillbepreprocessedtoeliminateoutliersbasedontheDCK．Atthesametimetheinitialcluster centerswillbedetermined，whichmakestheclustercenterisrelativelystable．Thenthedatawillbeclusteredbyusingtheimproved k-menasclusteringalgorithm provetobemoreaccuratethna theorigina1． Keywords：DCK；K-meansalgorithm；initialpointselected；outliers 基因表达数据蕴含着人类基因的活动信息，能帮助类效率低。我们深入认识诸多生物过程的本质。而在基因表达数据目前的研究，主要针对上述的两个缺陷进行改进，对中，由于基因数据量大，生物网络复杂，如何从大量数据它们之间的互相作用研究较少。如初始聚类中心的确定，中提取出有关基因的结构与功能信息，找出在功能上相国外学者RedmondSJ结合数据密度分布和KD—Tree进互关联的基因成为基因表达数据分析的主要内容。聚类行选择；国内学者傅德胜、周辰选择相互距离最远的k个分析成为目前处理基因表达数据的一种常用的有效技处于高密度区域的点作为聚类中心。关于孤立点方面的术。聚类是将相似的数据聚成一类，目前，聚类的方法研究不多，虽然张健民提出了一种孤立点过滤的改进算有多种，常见的聚类方法有基于划分的K—means算法、法，但没有考虑到初始中心的选择。 k-medoids算法；基于层次聚类的CURE、CHEMALOEN算考虑到上述改进中均未考虑到两个缺陷的互相影法；基于密度的DBSCAN、OPTICS算法；基于网格的STING、响，因此，笔者提出一种基于DCK值的改进K—means算法 WaveCluster算法；基于神经网络的SOM算法等。来消除二者的相互影响。在剔除孤立点和完善初始聚类 K—means算法，是一种经典算法，它具有算法简单且中心后，再用改进的k—means算法进行聚类，同时，对输收敛速度快的特点。但该方法也有许多不足：首先，它是入数据进行加权处理，使得聚类结果更准确。随机选择初始的中心点，这样聚类结果波动很大