k均值课程设计---K均值聚类（k-means）优化.docVIP

下载本文档

9
0
约6.98千字
约 7页
2018-11-27 发布于贵州
举报
版权申诉

k均值课程设计---K均值聚类（k-means）优化.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

该文档均来自互联网,如果侵犯了您的个人权益,请联系我们将立即删除!

模式识别课程设计报告姓名：陈继智学号：班级序号： 01 指导老师：蒋良孝时间： 2012年4月 K均值聚类（k-means）优化 ——基于遗传算法一、 K均值聚类的算法和遗传算法的概述 1、K均值聚类（k-means）就是将对物理或抽象对象的集合分组成为由类似的对象组成的多个簇的过程。聚类分析是指事先不知样本的类别，而利用样本的先验知识来构造分类器（无监督学习），可以用两个准则来做(1)聚类准则函数，(2)误差平方和准则（最常用的）。 2、遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法。生物的进化过程主要是通过染色体之间的交叉和变异来完成的，与此相对应，遗传算法中最优解的搜索过程也模仿了生物的进化过程，使用遗传操作数作用于群体进行遗传操作，从而得到新一代群体，其本质是一种求解问题的高效并行全局搜索算法。它能在搜索过程中自动获取和积累有关搜索空间的知识，并自适应地控制搜索过程，从而得到最优解或准最优解。算法以适应度函数为依据，通过对群体个体施加遗传操作实现群体内个体结构重组的迭代处理。在这一过程中，群体个体一代代地优化并逐渐逼近最优解。鉴于遗传算法的全局优化性，本文给出了一种基于遗传算法的K均值聚类算法来克服K均值算法的局部性。二、K均值算法的基本思想 K均值算法是一种使用最广泛的聚类算法。算法以K为参数，把n个对象分为K个簇，使簇内具有较高的相似度，而簇间相似度较低。算法首先随机选择K个对象，每个对象初始地代表了一个簇的平均值或中心，对剩余的每个对象根据其与各个簇中心的距离，将它赋给最近的簇，然后重新计算每个簇的平均值，不断重复该过程，直到准则函数收敛。准则函数如下：其中，ix为簇C的平均值。i K均值算法的描述如下： (1)任意选择K个记录作为初始的聚类中心。 (2)计算每个记录与K个聚类中心的距离，并将距离最近的聚类作为该点所属的类。 (3)计算每个聚集的质心(聚集点的均值)以及每个对象与这些中心对象的距离，并根据最小距离重新对相应的对象进行划分。重复该步骤，直到式(1)不再明显地发生变化。三、基于遗传算法的K均值聚类算法本文将遗传算法应用到聚类分析中，把遗传算法的全局优化能力与聚类分析的局部优化能力相结合来克服聚类算法的局部性，在种群进化过程中，引入K均值操作，同时，为了避免早熟现象，在种群中采用自适应方法动态调节交叉概率和变异概率，使其能够随适应度自动改变。算法具体步骤如下。 1 染色体编码染色体编码有很多种，在聚类分析中较常用的是基于聚类中心的浮点数编码和基于聚类划分的整数编码。由于聚类算法具有多维性、数量大等特点，聚类问题的样本数目一般远大于其聚类数目，因此采用基于聚类中心的浮点数编码，将各个类别的中心编码为染色体。例如对于一个类别为3的聚类问题，假设数据集为2维。初始的3个聚类中心点为(1, 2), (5, 4), (8, 7)，则染色体编码为(1, 2, 5, 4, 8, 7)。这种基于聚类中心的编码方式缩短了染色体的长度，提高了遗传算法的速度，对于求解大量数据的复杂聚类问题效果较好。 2 初始群体的产生为了获得全局最优解，初始群体完全随机生成。先将每个样本随机指派为某一类作为最初的聚类划分，并计算各类的聚类中心作为初始个体的染色体编码串，共生成m个初始个体，由此产生第一代种群。 3 适应度函数的选取适应度通常用来度量群体中各个体在优化计算中可能达到或接近于最优解的优良程度。本文采用式(1)构造适应度函数，由于式(1)的值越小说明聚类结果越好，越大说明聚类结果越差，因此选择如下的适应度函数：其中，b为常数，可以根据具体问题作调整。 4 遗传算子 4.1 选择算子采用适应度比例法与最优保存策略相结合的混合选择算子。首先在每一代开始时，将群体中的最优个体记录下来，然后根据各个体的适应度计算个体被选中的概率，用轮盘赌方法进行个体的选择，最后在每次遗传操作后形成新群体时用当前所记录的最优个体替换新群体中的最差个体，以防止遗传操作破坏当前群体中适应度最好的个体。 4.2 交叉操作交叉操作是指对2个相互配对的染色体按某种方式相互交换部分基因，从而形成2个新的个体，提高遗传算法的搜索能力。由于本文染色体采用浮点数编码，因此采用适合浮点数编码