基于遗传算法的高维数据聚类研究-research on high dimensional data clustering based on genetic algorithm.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于遗传算法的高维数据聚类研究-research on high dimensional data clustering based on genetic algorithm
摘要数据挖掘是当今信息产业界最前沿的研究方向之一,聚类分析是其中的一项重要研究课题。聚类分析是将数据根据一定的相似度度量划分成若干有用的或有意义的类(簇),其在实际应用中许多领域有着广泛的应用。目前,低维数据的聚类算法已较成熟,受“维度灾”(thecurseofdimensionality)的影响,许多传统的聚类算法运用到高维数据上往往失效,然而在实际应用中,高维度的数据普遍存在,例如,基因表达数据、金融数据、多媒体数据以及文本数据等。因此对高维数据聚类算法的研究具有非常重要的理论意义和应用价值。针对高维数据聚类问题,最直接有效的方法是降低维度,通过降维技术将原来高维数据空间归约到较低维空间,从而可以利用传统的聚类方法完成聚类处理。在高维数据中,并不是所有的维度对聚类而言都是有效的,因此需要对特征空间进行有效的搜索从而找出有效的聚类特征子空间。对于高维数据而言,维度越高,其特征子空间的数目也就越大,从而导致了传统的搜索算法像贪婪算法较易陷入局部最优解。作为智能算法的一种,遗传算法(GeneticAlgorithms,GA)的全局收敛性得到人们的普遍关注。遗传算法是通过模拟生物在自然界环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。本文利用遗传算法的全局搜索能力对高维数据的特征空间进行搜索,以找出有效的聚类特征子空间。同时为了考察特征维在子空间聚类中的特征,设计出一种基于特征维对子空间聚类贡献率的适应度函数,具有一定的理论价值和现实指导意义。论文的创新之处及主要工作如下:(1)搜索空间的确定及染色体的编码。将遗传算法运用到聚类分析问题的方法中,一般的编码方法多着重在类中心点空间上,本论文将特征选择空间和类中心点空间两部分联合组成编码空间,同时附加一些限制条件以有效地缩短编码长度。(2)设计出一种基于特征维对子空间聚类贡献率的适应度函数。作为子空间聚类的评估函数,它具有比较不同子空间聚类的能力,即聚类结果和子空间所包含的特征维一起评价。(3)设计并实现了一种基于遗传算法的高维数据聚类算法—GA-HDclustering(High-dimensionalDataClusteringusingGeneticAlgorithms)(4)通过计算机模拟所得的人工数据集、UCI机器学习网站上的3个真实数据集—wine数据集、wdbc数据集、sonar数据集以及BrianTjaden的文献中的saccharomyces数据集验证了GA-HDclustering算法的可行性与有效性。关键词:聚类分析;遗传算法;高维数据;特征子空间AbstractDataMiningisahotresearchareaininformationtechnologyindustry,andclusteranalysisisoneofthemostimportantresearchtopicsinthisarea.Clusteringistheprocessofgroupingdataintoanumberofclustersaccordingtoasimilaritymetric,whichhasawiderangeofapplicationsinrealword.Nowadays,therearemanyclassicalclusteringalgorithmswhichworkwellonlow-dimensionaldata,whilethosealgorithmsareofteninvalidwhenprocessinghigh-dimensionaldatabecauseof“thecurseofdimensionality”.However,thedataisalwayswithhighdimensionsintherealapplications.Forexamples,geneexpressiondata,financedata,multimediadataandwebdata.Theuniversalityofhigh-dimensionaldatamakesitveryimportanttoresearchonclusteringalgorithmsforhigh-dimensionaldata.Thedirectapproachforhigh-dimensionaldataclusteringisfeaturetransformationwhichtransformsthehighdimensionalspaceintolowdimensionalspace.Afterthat,thetraditionalclusteringalgorithmscanbeusedtosolvetheproblem.Inhighdimension
您可能关注的文档
- 基于心理资本的员工敬业度激发机制分析-analysis of employee engagement incentive mechanism based on psychological capital.docx
- 基于新课改背景下的地理教师专业素质现状研究 ——以贵州省高中地理教师为例-research on the current situation of geography teachers' professional quality under the background of new curriculum reform - taking guizhou province senior high school geography teache.docx
- 基于新制度经济学的分析生导师制改革分析-analysis based on new institutional economics analysis on the reform of student tutorial system.docx
- 基于新投影函数的面向识别的高效虹膜图像分割方法-recognition - oriented efficient iris image segmentation method based on new projection function.docx
- 基于新媒体的符号系统设计研究——以《格萨尔王》电子书设计为例-research on symbol system design based on new media - a case study of.docx
- 基于信息构建的网站评价——web2.0环境下的研究-website evaluation based on information construction - research under web 2.0 environment.docx
- 基于信息流优化的航空紧固件制造业流程再造分析及应用-analysis and application of aviation fastener manufacturing process reengineering based on information flow optimization.docx
- 基于信息流分析的web服务安全机制分析-analysis of web service security mechanism based on information flow analysis.docx
- 基于信息传达的历史街区街道界面更新策略分析-analysis of street interface renewal strategy of historic districts based on information transmission.docx
- 基于信息披露质量的公司内部治理与权益资本成本关系分析-analysis of the relationship between corporate internal governance and equity capital cost based on the quality of information disclosure.docx
- 基于遗传算法的mcdc测试用例自动生成方法研究-research on automatic generation method of mccc test cases based on genetic algorithm.docx
- 基于遗传算法的城市轨道交通列车节能操纵方法研究-research on energy saving control method of urban rail transit train based on genetic algorithm.docx
- 基于遗传算法的淠史杭灌区渠系配水优化编组模型的分析-analysis of optimal grouping model of canal system water distribution in pishihang irrigation area based on genetic algorithm.docx
- 基于遗传算法的高压最小流量阀pid自适应控制分析-analysis of pid adaptive control of high pressure minimum flow valve based on genetic algorithm.docx
- 基于遗传算法的客流量分析系统分析-analysis of passenger flow analysis system based on genetic algorithm.docx
- 基于遗传算法的接地网故障诊断分析-fault diagnosis analysis of grounding grid based on genetic algorithm.docx
- 基于遗传算法的水库补偿调度优化汛限水位分析-analysis of optimal flood limit water level for reservoir compensation operation based on genetic algorithm.docx
- 基于遗传算法的双子电梯群复合控制系统分析-analysis of compound control system of twin elevator group based on genetic algorithm.docx
- 基于遗传算法的水稻联合收割机喂入密度检测方法分析-analysis of feed density detection method for rice combine harvester based on genetic algorithm.docx
- 基于遗传算法的水资源优化分配分析及应用-analysis and application of optimal allocation of water resources based on genetic algorithm.docx
文档评论(0)