改进模拟退火算法K―means聚类方法在学生成绩上应用.docVIP

下载本文档

39
0
约8.31千字
约 18页
2018-09-10 发布于福建
举报
版权申诉

改进模拟退火算法K―means聚类方法在学生成绩上应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进模拟退火算法K―means聚类方法在学生成绩上应用

改进模拟退火算法K―means聚类方法在学生成绩上应用　　【摘要】本文以学生管理系统中学生的成绩作为测试集，提出一种新的基于改进模拟退火的k-means算法的评价函数，挖掘学生成绩中的有效数据，用改进前后的算法来解决最优问题。实验证明改进模拟退火的k-means聚类算法收敛效果要优于传统的K-means算法，具有更好的聚类性能，其算法更加高效。　　【关键词】模拟退火算法数据挖掘 K-means聚类学生成绩　　【中图分类号】G 【文献标识码】A 　　【文章编号】0450-9889（2017）08C-0149-04 　　聚类（Clustering）是一种重要的数据分析手段，常用于数据挖掘领域，其主要用于实现对数据的深层次分析。它已经广泛应用于图像处理、模式识别、生物信息学等各个领域。K-means算法是数据挖掘中聚类问题的重要算法之一，也是现在公认的最有前景的数据分析算法。然而，由于随机初始聚类中心的选取，因此聚类算法得不到全局最优解，并且收敛时间过长，影响分类的效果，会导致聚类结果的极不稳定。　　1953年，Metropolis等人提出一种基于概率的算法――模拟退火算法（Simulated Annealing）。利用模拟退火算法采用启发式搜索初始聚类中心，再结合K-means算法，可以解决局部最优解优解的问题；同时减少了迭代次数，提高了聚类划分的质量，让数据分析更科学化。　　早已有一些学者研究模拟退火K-means聚类算法，并提出了一系列具有进步意义的观点，将其投入到实际应用中。李健等学者也进行了这一类研究，并将其跟镜头聚类相结合，进行了拓展性应用分析；陈慧萍等人将其跟UCI机器学习数据结合，提高了机器的运算能力；陈明等人将模拟退火K-means聚类算法跟多波段图像相结合，发现模拟退火K-means聚类算法能够从多波段图像中提取有价值的信息，提高对采集的数据的运算能力。本文以学生管理系统中学生的成绩作为测试集，提出一种新的基于改进模拟退火的K-means算法的评价函数，挖掘学生成绩中的有效数据，更准确地体现聚类的类内间距和类间间距，从而促进教学质量的提高。　　一、模拟退火算法概述　　模拟退火算法的基本思想最开始来源于固体物质退火学说中，其做法为：先加热某个物体，让其升温到一定的温度。当温度足够高时再进行缓慢降温。在使用模拟退火K-means聚类算法优化问题的时候，往往能够将内能E转化为我们需要的目标函数值f，也能够将在这个过程中的温度T转化为控制参数t，这样可以推算得到优化方法：先计算初始解与t，对解实施迭代，之后体系的t不断地减小，控制体系的温度T降低，当体系的控制参数t降到最低值的时候，我们就能够得到一个最优解，该数值也就是本次计算的理想数值。　　模拟退火算法性质上属于启发式随机算法，相对于过去使用的算法来说，该种算法运算简单，应用范围广，计算起来比较容易，运算效率快，而且不容易受到初始条件的约束。从理论层面上来看，利用该种算法是能够获得最优解的，而且也有人证明该种方法计算得到最优解的概率为100%，同时该种方法也能够进行大规模运算量的操作，提高了人们对数据的分析能力。　　模拟退火算法也有很多缺点，比如说当参数变化的时候，其运算结果也会发生变化。控制体系的温度T衰减参数若是选择的不好，或者是退火过程的收敛速度太慢，都会影响到解的精确性，影响了我们计算获得最优解。　　二、聚类　　聚类（Clustering）是一种重要的数据分析手段，常用于数据挖掘领域（Data Mining），其主要用于实现对数据的深层次分析。而K-means聚类算法又是聚类数据分析中最主要的一种，也是目前最科学化的一种算法。K-means聚类算法最早是Steinhaus（1955）、Loyd（1957）、BallHall（1965）和McQueen（1967）在其相应的研究领域提出的。K-means聚类算法运算效率高、计算方法渐变、运算应用范围广，这些都让K-means聚类算法在诸多领域得到了应用，比如信息技术领域、医学领域、决策科学领域等，都展现出了K-means聚类算法的应用价值。　　K-means聚类算法的优势在于能够找到该类准则下的最小k个划分，而这类算法的结合能力好，比?^容易实现，同时各项指标也都发现K-means聚类算法具有很多优势，比如收敛能力强、运算效率高等。在K-means聚类算法中，如果各类之间区别明显，同时数据分布也比较密集，则使用K-means聚类算法处理数据能够得到最佳结果。若是处理一些大规模的数据，K-means聚类算法也能够很好地实现对数据的处理，不仅处理效率高，而且伸缩性较好。在K-means聚类算法中，算法的复杂度是O（nkm）。这三个字母有着不同的含义，n的含义