基于KS抽样的k-medoids聚类初始中心选取法.pdfVIP

基于KS抽样的k-medoids聚类初始中心选取法.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于KS抽样的k-medoids聚类初始中心选取法.pdf

内蒙古工业大学学报 0FINNERMONGOLIA JoURNAL 第35卷第4期 UNIVERSITY0FTECHNOLOGY 文章编号:1001—5167(2016)04—0012一06 张晓东 (包头师范学院网络信息中心,包头014030) 摘要:经典的k—medoids聚类方法的聚类效果依赖于初始类中心的选择,而已有类中心选择方法 Ken— 不能确保类中心属于不同的类。针对此问题提出了密度峰值Kennard—Stone(Densitypeak nard—Stone,DPKS)类中心初始化方法,即先从原始数据集中选择一些高密度样本,再借助Ken— nard—Stone(KS)抽样从这些样本中选择距离较远的样本,这样确定的初始类中心不可能是离群 点,而且更有可能属于不同的类。实验结果表明,DPKS比已有类中心选取法更容易获得不同类 别的初始类中心。虽然DPC(Density withnew peakclustering)和DPNM(Densitypeakoptimized measure)与DPKS方法的聚类精度相差不大,但本文方法的聚类时间小于前两种方法,是一种快 速有效的聚类方法。 关键词:k—medoids聚类;初始聚类中心;密度峰值;KS抽样 中图分类号:0212;0242文献标识码:A 0 引言 实际中如果数据较多或问题繁杂难以统一处理,通常我们会将其进行归并,如医院按照病人病情分 为不同科室处理;生物研究中根据古生物化石的骨骼形状和尺寸将它们分类;垃圾的分类回收等等。经 过这种归并或聚类后,就可以根据各类的特点进行针对性处理或分析。聚类分析就是要将相似个体聚 为一体,不相似个体放在不同类。目前聚类分析作为一种常规处理技术出现在很多领域,如工程、生物、 医药、语言、心理学等。 聚类算法可分为:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型 means算法的虚拟类中心替换为某个中心样本,在一定程度上缓解了这种不足[5]。但是,这两种基于划 分的聚类算法需要事先给定类别数和初始类中心,一旦初始类中心选择不佳,聚类结果可能会不太理 想。因此出现了很多改进初始类中心的方法。Park等人改进了类中心选择方法,提出了一种快速k— 确定类簇数和选择较好的聚类初始中心[1…。这种决策图加以改进后进一步优化了聚类结果[11|,但这样 确定的初始聚类中心依然可能位于同一类簇,影响聚类效率和效果。因此我们考虑从抽样的角度优化 初始类中心。 收稿日期:2016—11-23 作者简介:张晓东(1981一),女,实验师,研究方向:软件工程,信息管理与信息系统。 万方数据 298 内蒙古工业大学学报 set basedon 样‘12|、Kohonen(KH)抽样‘131、SPXY(samplepartitioningjointx-y 抽样的基础上加上类别信息进行抽样,适用于有监督学习,并不适用于聚类分析。综合上述研究可见, KS是相对较好的抽样方法。然而这些抽样方法并未见用于初始类中心的抽样,因此将表现较好的KS 抽样方法引入k-medoids聚类初始中心的选取。 本文从抽样的角度优化初始类中心。首先从数据中选出样本密度较高的点,最佳初始类中心应该 在其中;然后对这些高密度点进行KS抽样,就可以抽取出高密度点中具有代表性的样本。这些样本之 间要实现距离最大化,因此极有可能分布在不同的类簇,从而获得快速、有效的聚类结果。 1 DPKS类中心选取法 1.1 KS抽样 KS抽样是一种保持分布的代表点抽取方法,其算法如下。 算法1:KS抽样算法。

您可能关注的文档

文档评论(0)

小马过河 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档