基于遗传算法与密度及距离计算的聚类方法.docVIP

下载本文档

2
0
约6.48千字
约 13页
2018-08-17 发布于湖北
举报
版权申诉

基于遗传算法与密度及距离计算的聚类方法.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于遗传算法与密度及距离计算的聚类方法　　摘要：为解决聚类中心选择困难和数据点密度计算泛化能力弱的问题，提出一种基于遗传算法与密度及距离计算的聚类方法。该算法通过指数方法计算数据点密度，降低参数对算法性能的影响；用遗传算法搜索最优密度和距离阈值，同时引入惩罚因子，克服算法搜索域偏移从而提高收敛速度，寻找最优聚类中心，并用归属方法完成聚类。通过4组人工数据集和4组UCI数据集实验证明，该方法在RI指数、聚类精度、聚类纯度、召回率等4个聚类评价指标上都达到与Kmeans算法、快速搜索聚类算法和Max_Min_SD算法相当或更好的效果，算法是有效的。　　关键词：遗传算法；聚类；密度；距离　　中图分类号： TP391.4 　　文献标志码：A 　　0引言　　在机器学习与模式识别领域，聚类是一种搜索数据簇的无监督学习技术，目标在于将数据集分成不同的类簇，并要求同一类簇的实体相似，不同类簇的实体相似度尽可能小[1-2]。目前常用的聚类方法有Kmeans聚类算法[3]、具有噪声的基于密度的聚类（DensityBased Spatial Clustering of Applications with Noise， DBSCAN）算法[4]、基于近邻传播聚类算法（Affinity Propagation， AP）[5]等。Kmeans算法一般使用随机方法生成初始聚类中心集，之后经过多次迭代得到最佳聚类中心生成聚类结果；DBSCAN聚类算法产生的思想是一个聚类可以由其中的任何核心对象唯一确定，算法的第一个步骤便是找到一个聚类中心点。随机生成的聚类中心集往往达不到好的聚类效果，为了得到更好的聚类质量，一些算法迭代的次数大量增加，算法效率低下。因此，聚类中心的选择是决定聚类质量的关键，也是许多聚类算法中的一个难点。　　针对聚类中心选择问题目前有许多方法。最大最小距离算法（Max_Min）[6]，基本思想是找到一组距离差最大的聚类中心点，聚类完成后再求得每一个类的平均点作为最后的聚类中心。　　该算法存在以下问题，离群点对聚类中心的寻找影响很大，此外当数据集形状不是凸球体（如螺旋形数据）时，算法效果不明显。基于密度峰值的聚类中心寻找方法[7]，先计算所有数据点的密度，然后找到密度大且与其他更高密度点距离大的点作为聚类中心。然而算法的聚类中心选择仅仅是根据密度与距离的乘积来判定，对于离群点的容错性不强，而且该算法计算密度方式对参数的依赖性过高，泛化能力弱。综上所述，选择正确的聚类中心需要寻找最优密度与距离阈值。针对以上问题，本文提出一种基于遗传算法与密度及距离计算的聚类方法，采用指数方法计算密度值提高泛化能力，用遗传算法寻找密度与较大密度最小距离的分割阈值，引入聚类有效性度量Rand系数作为遗传算法的适应值反馈，同时在遗传算法中加入惩罚因子克服搜索域偏移从而提高收敛速度，使用有向交叉遗传算子提高算法的时效性和准确性。选择聚类中心后将数据点归属到比它有更高密度的最近邻类簇完成聚类。　　1相关基础理论　　1.1聚类的形式化描述　　设U={p1，p2，…，pn}表示一个样本（实体）集合，pi表示第i个样本，其中i={1，2，…，n}；Ci表示一个划分，Ci={pi1，pi2，…，piw}为一个划分的样本集合，pil表示第i个划分中的第l个样本； similarity（pil，pjm）表示第i个划分中第l个样本与第j个划分中第m个样本的相似度；U={C1，C2，…，Ck}表示聚类的结果。Ci满足以下条件：　　1）∪ki=1 Ci=U（k≤n）；　　2）Ci≠；　　3）Ci， CjU， Ci∩Cj=（i≠j）；　　4）Max pil∈Ci，pjm∈Cj，Ci，CjUCi∩Cj=similarity（pil，pjm）≤ 　　Min pil∈Ci，pim∈Ci，CiU similarity（pil，pim）（最佳情况）。　　1.2密度计算方法　　基于密度的DBSCAN算法有两个重要的参数：ε邻域，即给定半径ε内的区域；MinPts最小对象数，即可以成为核心对象的样本邻域包含对象数最小值。DBSCAN算法使用ε邻域内对象数作为样本的密度。　　定义1数据集U={p1，p2，…，pn}对任意pi∈U，设样本距离dij=‖pi-pj‖，对象pi的密度为：　　ρi=∑nj=1φ（ε-dij）（1）　　其中：φ（x）=1，x≥0 　　0，x0。　　基于密度峰值的聚类中心寻找方法提出数据点的局部密度为ρi=∑nj=1χ（dij-dc），其中dc为截断距离，含义同ε；即如果a0，则χ（a）=0；否则χ（a）=1，实质上与式（1）一样。　　1.3距离计算方法　　文献[7]的算法思想基于一个假设：