- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国科学 信息科学 年 第 卷 第 期
SCIENTIA SINICA Informationis
论 文
近邻优化的密度峰值快速搜索聚类算法
*
谢娟英 高红超 谢维信
陕西师范大学计算机科学学院, 西安 710061
深圳大学信息工程学院 ATR 国家重点实验室, 深圳 518006
* 通信作者. E-mail: xiejuany@
收稿日期: 2015–08–26; 接受日期: 2015–09–21; 网络出版日期: 2016–01–22
国家自然科学基金项目(批准号:、陕西省科技攻关项目 (批准号: 2013K12-03-24) 和中央高校基本科研业务费专项基金
项目 (批准号: GK201503067) 资助
摘要 针对 年 月发表在 的密度峰值点快速搜索聚类算法的样本局部密度定义和样
本分配策略的缺陷 提出一种基于 近邻的快速密度峰值搜索并高效分配样本的聚类算法 算法利
用样本点的 近邻信息定义样本局部密度 搜索和发现样本的密度峰值 以峰值点样本作为初始类
簇中心 提出两种基于 近邻的样本分配策略 依次分配样本到相应类簇中心 得到数据集样本的
分布模式 理论分析和在经典人工数据集、 数据集及 人脸数据集的对比实验表明 提出
的基于 近邻的密度峰值搜索聚类算法能快速发现任意形状、任意维度和任意规模数据集的类簇
中心 并合理分配样本到相应类簇 揭示数据集样本的分布模式 对噪声数据具有非常好的鲁棒性
聚类结果优于 年 月发表在 的密度峰值点快速搜索聚类算法 以及经典聚类算法
和 本文算法是一种非常有效的聚类算法 可用于发现任意数据集的隐藏模式与
规律
关键词 近邻 局部密度 密度峰值 类簇中心 聚类
引言
聚类是根据数据对象 (样本) 之间的相似性将数据集样本划分成合理类簇的过程, 聚类结果使得
同一类簇内的对象具有较高相似性, 不同类簇间的对象相似性较低∼ . 聚类是最重要的认识和了解
世界的方式, 借助聚类可以从数据中发现知识, 揭示隐藏的模式和规律, 广泛应用在科学数据分析和
工程系统等领域∼ . 大数据背景下的海量和多样数据的存在, 使得具有自动理解、处理和概括数据
的聚类算法研究迫在眉睫 .
聚类算法包括划分式聚类方法、层次聚类方法、基于密度的聚类方法和基于网格的聚类方法, 以
及集成式聚类算法 . K-means 是应用范围最广的划分式聚类算法 . 然而, K-means 算法的聚类
结果严重依赖于初始类簇中心, 很难发现非凸形状的簇, 对噪声点和离群点敏感, 且类簇数K 需要事
先设定 . 针对K-means 的缺陷, 出现了GKM (Global K-means) 算法 等诸多改进算法 .
引用格式 谢娟英 高红超 谢维信 近邻密度峰值快速搜索聚类 中国科学 信息科学
⃝ 《中国科学》杂志社
中国科学 信息科学 第 卷 第 期
基于密度的聚类算法DBSCAN (density based spatial clustering of applications with noise) 能发现
任意形状的簇, 在邻域半径参数 ϵ 和核心对象邻域包含的最少样本数参数 MinPts 设置适当时, 能快
速发现含噪声空间中任意形状的类簇 , 但如何设置这两个参数缺乏理论依据. 近邻传播聚类算
法 AP (affinity propagation) 将所有样本看作网络中的一个顶点, 通过反复迭代交换近邻样本间的
信息, 寻找最优的类代表点样本集合, 使所有样本与最近类代表点样本的相似度之和最大
您可能关注的文档
- 浅覆土、大坡度、小半径隧道盾构施工技术总结.doc
- 半潜式超大型浮式结构水动力系数研究.pdf
- (VHDL实验报告)一位半加器,全加器的设计.ppt
- 第3章 投标文件的组成.doc
- 初三化学上期半期考试试题.doc
- 第 10期武术社团简报.doc
- 政府会计准则第3号.doc
- 量子力学习题解答-第2章.doc
- 成品木饰面护墙板干挂安装过程.doc
- 第1课《尝试新材料》.doc
- 2025年广东外语外贸大学附属科学城实验学校临聘教师招聘备考题库及参考答案详解.docx
- 热仿真:热对流仿真_(1).热对流仿真概述.docx
- 四川工商学院《国际经济法原理与实务》2023-2024学年第二学期期末试卷.doc
- 哈尔滨城市职业学院《旅游财务管理、旅游项目管理》2023-2024学年第二学期期末试卷.doc
- 2024-2025学年安徽省安庆市安庆二中学东数学七上期末达标检测试题含解析.doc
- 常州信息职业技术学院《中学体育课程与教材研究》2023-2024学年第一学期期末试卷.doc
- 2025届江苏省盐城市大丰初三下学期末物理试题含解析.doc
- 湖南省衡阳市耒阳市重点中学2025届初三下学期第一次联合考试数学试题含解析.doc
- 热仿真:热传导仿真_(12).多物理场耦合热传导仿真.docx
- 重庆能源职业学院《生物质材料与能源》2023-2024学年第一学期期末试卷.doc
原创力文档


文档评论(0)