- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于边界识别聚类算法
一种基于边界识别的聚类算法
摘要:针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法,该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化,通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类,通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当。
关键词:聚类算法;密度;边界识别
中图分类号:TP311.13 文献标识码:A文章编号:0253-987X(2007)12-1387-04
数据挖掘就是从大量的数据中发现隐含、先前未知、对决策有潜在价值规则的过程叫,其中聚类分析是广为研究的问题之一,聚类算法通常包括层次聚类、分割聚类、基于密度的聚类、基于网格的聚类等,DBSCAN、CURE、CURD等都是基于密度的聚类算法,其优点是能够有效地屏蔽异常数据(噪声)对算法的影响,但由于它们对数据处理的顺序有所不同,所以仍存在噪声误判的情况,OPTICS(0rdering Points to Identlfy the Clustering Struc-ture)算法嘲也存在这类问题。
本文提出了一种基于边界识别的聚类算法,即在密度定义的基础上,通过考察簇边界区域的密度变化情况,建立了簇边界识别准则,并根据该准则进行聚类。
1 OPTICS算法及相关概念
OPTICS算法是一种基于密度的聚类算法,它克服了DBSCAN算法过度依赖输入参数的弱点,但二者相同的是它们均通过区域查询的方法实现对象处理的,在对象处理过程中,算法将计算出对象的核心距离及可达距离这2个参数以供聚类时使用。
OPTICS算法选取的下一个对象总是与已聚类的对象的可达距离最小,这会导致对象的处理顺序为高密度区域在先低密度区域在后,其优点是能够快速地识别出核心区域对象的类别,而不受对象形状、密度和大小的影响,但是,低密度区域的对象总是延迟处理,而对象的处理顺序又是影响聚类的关键因素,所以OPTICS算法该算法不能很好地识别低密度区域的对象类别。
图1为OPTICS算法产生的数据点与类顺序之间的映射情况,从中看到有A、B、C 3个聚类,由于这3个聚类之间有高密度。“通道”所以OPTICS算法会优先通过这些“通道”处理3个圆形区域内的数据,而圆形区域周围的对象将在最后被划分成D类并与C类归并在一起,如果最后处理的对象距离C类中的对象过远,那么这些对象都将作为噪声其结果显然不能令人满意,文献曾针对该问题进行了讨论,并提出了先采用OPTICS算法处理所有对象,然后再用基于距离的K-平均算法重新划分低密度区域对象的方法,这样做虽然能够将低密度对象划分到正确的聚类中,但需要进行2次处理,计算量也很大。
2 边界识别算法
2.1 算法思想
机器聚类的最终目标就是达到手工聚类的效果,而手工聚类是根据簇边界来划分对象的,据此本文提出了基于簇边界进行对象聚类的思想,这种思想也可以表述为同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,假设P1和p2属于同一簇,而岛属于另外一簇,OPTICS算法对这3个对象的处理顺序为P1→P3→P2,本文算法的处理顺序为p1→P2→P3。
按照上述思想,当对象沿某一方向扩展到达簇边界时,应停止扩展,并转而向其他方向扩展,直到簇内的所有对象都扩展完毕,这种处理顺序能够使类别最大化,若将对象间的距离信息看作局部信息,将簇信息看作全局信息,那么本文算法亦可结合局部和全局信息来选取下一个对象,避免了OPTICS算法只考虑局部信息的弊端,
2.2 边界识别准则
根据密度分布特征,可将簇分成3个部分:核心部分、中间部分和边界部分,根据对象扩展时所经区域,可以将扩展分为4类,如表1所示,
表1不同区域的密度变化特点
从表1可以看出,4种扩展类型都有各自的特征,当对象扩展穿越簇边界时,对象密度的变化特点为先降低后升高,如果在OPTICS算法的基础上考察3块连续区域对象的密度变化情况,就可以判断出当前对象是否在簇边界区域,定义1 为探测边界区域而选中的进行邻域密度测试的对象为采样点。定义2 采样点的e邻域称为采样区域,即在边界区域探测时做密度测试的区域,定义3
文档评论(0)