基于KS抽样的k-medoids聚类初始中心选取法.pdfVIP

下载本文档

21
0
约1.19万字
约 6页
2017-06-05 发布于湖北
举报
版权申诉

基于KS抽样的k-medoids聚类初始中心选取法.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于KS抽样的k-medoids聚类初始中心选取法.pdf

内蒙古工业大学学报 0FINNERMONGOLIA JoURNAL 第35卷第4期 UNIVERSITY0FTECHNOLOGY 文章编号：1001—5167(2016)04—0012一06 张晓东 (包头师范学院网络信息中心，包头014030) 摘要：经典的k—medoids聚类方法的聚类效果依赖于初始类中心的选择，而已有类中心选择方法 Ken— 不能确保类中心属于不同的类。针对此问题提出了密度峰值Kennard—Stone(Densitypeak nard—Stone，DPKS)类中心初始化方法，即先从原始数据集中选择一些高密度样本，再借助Ken— nard—Stone(KS)抽样从这些样本中选择距离较远的样本，这样确定的初始类中心不可能是离群点，而且更有可能属于不同的类。实验结果表明，DPKS比已有类中心选取法更容易获得不同类别的初始类中心。虽然DPC(Density withnew peakclustering)和DPNM(Densitypeakoptimized measure)与DPKS方法的聚类精度相差不大，但本文方法的聚类时间小于前两种方法，是一种快速有效的聚类方法。关键词：k—medoids聚类；初始聚类中心；密度峰值；KS抽样中图分类号：0212；0242文献标识码：A 0 引言实际中如果数据较多或问题繁杂难以统一处理，通常我们会将其进行归并，如医院按照病人病情分为不同科室处理；生物研究中根据古生物化石的骨骼形状和尺寸将它们分类；垃圾的分类回收等等。经过这种归并或聚类后，就可以根据各类的特点进行针对性处理或分析。聚类分析就是要将相似个体聚为一体，不相似个体放在不同类。目前聚类分析作为一种常规处理技术出现在很多领域，如工程、生物、医药、语言、心理学等。聚类算法可分为：基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型 means算法的虚拟类中心替换为某个中心样本，在一定程度上缓解了这种不足[5]。但是，这两种基于划分的聚类算法需要事先给定类别数和初始类中心，一旦初始类中心选择不佳，聚类结果可能会不太理想。因此出现了很多改进初始类中心的方法。Park等人改进了类中心选择方法，提出了一种快速k— 确定类簇数和选择较好的聚类初始中心[1…。这种决策图加以改进后进一步优化了聚类结果[11|，但这样确定的初始聚类中心依然可能位于同一类簇，影响聚类效率和效果。因此我们考虑从抽样的角度优化初始类中心。收稿日期：2016—11-23 作者简介：张晓东(1981一)，女，实验师，研究方向：软件工程，信息管理与信息系统。万方数据 298 内蒙古工业大学学报 set basedon 样‘12|、Kohonen(KH)抽样‘131、SPXY(samplepartitioningjointx-y 抽样的基础上加上类别信息进行抽样，适用于有监督学习，并不适用于聚类分析。综合上述研究可见， KS是相对较好的抽样方法。然而这些抽样方法并未见用于初始类中心的抽样，因此将表现较好的KS 抽样方法引入k-medoids聚类初始中心的选取。本文从抽样的角度优化初始类中心。首先从数据中选出样本密度较高的点，最佳初始类中心应该在其中；然后对这些高密度点进行KS抽样，就可以抽取出高密度点中具有代表性的样本。这些样本之间要实现距离最大化，因此极有可能分布在不同的类簇，从而获得快速、有效的聚类结果。 1 DPKS类中心选取法 1．1 KS抽样 KS抽样是一种保持分布的代表点抽取方法，其算法如下。算法1：KS抽样算法。