基于遗传算法的高维数据聚类研究-research on high dimensional data clustering based on genetic algorithm.docxVIP

下载本文档

3
0
约4.71万字
约 59页
2018-06-04 发布于上海
举报
版权申诉

基于遗传算法的高维数据聚类研究-research on high dimensional data clustering based on genetic algorithm.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于遗传算法的高维数据聚类研究-research on high dimensional data clustering based on genetic algorithm

摘要数据挖掘是当今信息产业界最前沿的研究方向之一，聚类分析是其中的一项重要研究课题。聚类分析是将数据根据一定的相似度度量划分成若干有用的或有意义的类（簇），其在实际应用中许多领域有着广泛的应用。目前，低维数据的聚类算法已较成熟，受“维度灾”(thecurseofdimensionality)的影响，许多传统的聚类算法运用到高维数据上往往失效，然而在实际应用中，高维度的数据普遍存在，例如，基因表达数据、金融数据、多媒体数据以及文本数据等。因此对高维数据聚类算法的研究具有非常重要的理论意义和应用价值。针对高维数据聚类问题，最直接有效的方法是降低维度，通过降维技术将原来高维数据空间归约到较低维空间，从而可以利用传统的聚类方法完成聚类处理。在高维数据中，并不是所有的维度对聚类而言都是有效的，因此需要对特征空间进行有效的搜索从而找出有效的聚类特征子空间。对于高维数据而言，维度越高，其特征子空间的数目也就越大，从而导致了传统的搜索算法像贪婪算法较易陷入局部最优解。作为智能算法的一种，遗传算法(GeneticAlgorithms,GA)的全局收敛性得到人们的普遍关注。遗传算法是通过模拟生物在自然界环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。本文利用遗传算法的全局搜索能力对高维数据的特征空间进行搜索，以找出有效的聚类特征子空间。同时为了考察特征维在子空间聚类中的特征，设计出一种基于特征维对子空间聚类贡献率的适应度函数，具有一定的理论价值和现实指导意义。论文的创新之处及主要工作如下：（1）搜索空间的确定及染色体的编码。将遗传算法运用到聚类分析问题的方法中，一般的编码方法多着重在类中心点空间上，本论文将特征选择空间和类中心点空间两部分联合组成编码空间，同时附加一些限制条件以有效地缩短编码长度。（2）设计出一种基于特征维对子空间聚类贡献率的适应度函数。作为子空间聚类的评估函数，它具有比较不同子空间聚类的能力，即聚类结果和子空间所包含的特征维一起评价。（3）设计并实现了一种基于遗传算法的高维数据聚类算法—GA-HDclustering(High-dimensionalDataClusteringusingGeneticAlgorithms)（4）通过计算机模拟所得的人工数据集、UCI机器学习网站上的3个真实数据集—wine数据集、wdbc数据集、sonar数据集以及BrianTjaden的文献中的saccharomyces数据集验证了GA-HDclustering算法的可行性与有效性。关键词：聚类分析；遗传算法；高维数据；特征子空间AbstractDataMiningisahotresearchareaininformationtechnologyindustry,andclusteranalysisisoneofthemostimportantresearchtopicsinthisarea.Clusteringistheprocessofgroupingdataintoanumberofclustersaccordingtoasimilaritymetric,whichhasawiderangeofapplicationsinrealword.Nowadays,therearemanyclassicalclusteringalgorithmswhichworkwellonlow-dimensionaldata,whilethosealgorithmsareofteninvalidwhenprocessinghigh-dimensionaldatabecauseof“thecurseofdimensionality”.However,thedataisalwayswithhighdimensionsintherealapplications.Forexamples,geneexpressiondata,financedata,multimediadataandwebdata.Theuniversalityofhigh-dimensionaldatamakesitveryimportanttoresearchonclusteringalgorithmsforhigh-dimensionaldata.Thedirectapproachforhigh-dimensionaldataclusteringisfeaturetransformationwhichtransformsthehighdimensionalspaceintolowdimensionalspace.Afterthat,thetraditionalclusteringalgorithmscanbeusedtosolvetheproblem.Inhighdimension