K近邻优化的密度峰值快速搜索聚类算法_谢娟英.pdfVIP

K近邻优化的密度峰值快速搜索聚类算法_谢娟英.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国科学 信息科学 年 第 卷 第 期 SCIENTIA SINICA Informationis 论 文 近邻优化的密度峰值快速搜索聚类算法 * 谢娟英 高红超 谢维信 陕西师范大学计算机科学学院, 西安 710061 深圳大学信息工程学院 ATR 国家重点实验室, 深圳 518006 * 通信作者. E-mail: xiejuany@ 收稿日期: 2015–08–26; 接受日期: 2015–09–21; 网络出版日期: 2016–01–22 国家自然科学基金项目(批准号:、陕西省科技攻关项目 (批准号: 2013K12-03-24) 和中央高校基本科研业务费专项基金 项目 (批准号: GK201503067) 资助 摘要 针对 年 月发表在 的密度峰值点快速搜索聚类算法的样本局部密度定义和样 本分配策略的缺陷 提出一种基于 近邻的快速密度峰值搜索并高效分配样本的聚类算法 算法利 用样本点的 近邻信息定义样本局部密度 搜索和发现样本的密度峰值 以峰值点样本作为初始类 簇中心 提出两种基于 近邻的样本分配策略 依次分配样本到相应类簇中心 得到数据集样本的 分布模式 理论分析和在经典人工数据集、 数据集及 人脸数据集的对比实验表明 提出 的基于 近邻的密度峰值搜索聚类算法能快速发现任意形状、任意维度和任意规模数据集的类簇 中心 并合理分配样本到相应类簇 揭示数据集样本的分布模式 对噪声数据具有非常好的鲁棒性 聚类结果优于 年 月发表在 的密度峰值点快速搜索聚类算法 以及经典聚类算法 和 本文算法是一种非常有效的聚类算法 可用于发现任意数据集的隐藏模式与 规律 关键词 近邻 局部密度 密度峰值 类簇中心 聚类 引言 聚类是根据数据对象 (样本) 之间的相似性将数据集样本划分成合理类簇的过程, 聚类结果使得 同一类簇内的对象具有较高相似性, 不同类簇间的对象相似性较低∼ . 聚类是最重要的认识和了解 世界的方式, 借助聚类可以从数据中发现知识, 揭示隐藏的模式和规律, 广泛应用在科学数据分析和 工程系统等领域∼ . 大数据背景下的海量和多样数据的存在, 使得具有自动理解、处理和概括数据 的聚类算法研究迫在眉睫 . 聚类算法包括划分式聚类方法、层次聚类方法、基于密度的聚类方法和基于网格的聚类方法, 以 及集成式聚类算法 . K-means 是应用范围最广的划分式聚类算法 . 然而, K-means 算法的聚类 结果严重依赖于初始类簇中心, 很难发现非凸形状的簇, 对噪声点和离群点敏感, 且类簇数K 需要事 先设定 . 针对K-means 的缺陷, 出现了GKM (Global K-means) 算法 等诸多改进算法 . 引用格式 谢娟英 高红超 谢维信 近邻密度峰值快速搜索聚类 中国科学 信息科学 ⃝ 《中国科学》杂志社 中国科学 信息科学 第 卷 第 期 基于密度的聚类算法DBSCAN (density based spatial clustering of applications with noise) 能发现 任意形状的簇, 在邻域半径参数 ϵ 和核心对象邻域包含的最少样本数参数 MinPts 设置适当时, 能快 速发现含噪声空间中任意形状的类簇 , 但如何设置这两个参数缺乏理论依据. 近邻传播聚类算 法 AP (affinity propagation) 将所有样本看作网络中的一个顶点, 通过反复迭代交换近邻样本间的 信息, 寻找最优的类代表点样本集合, 使所有样本与最近类代表点样本的相似度之和最大

文档评论(0)

annylsq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档