第9章 附加问题与算法.ppt

(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 聚类分析:附加的问题与算法 在各种领域,针对不同的应用类型,已经开发了大量聚类算法。在这些算法中没有一种算法能够适应所有的数据类型、簇和应用。 事实上,对于更加有效或者更适合特定数据类型、簇和应用的新的聚类算法,看来总是有进一步的开发空间。 我们只能说我们已经有了一些技术,对于某些情况运行良好。其原因是,在许多情况下,对于什么是一个好的簇集,仍然凭主观解释。此外,当使用客观度量精确地定义簇时,发现最优聚类问题常常是计算不可行的。 比较k均值和DBSCAN DBSCAN和k均值都是将每个对象指派到单个簇的划分聚类算法,但是K均值一般聚类所有对象,而DBSCAN丢弃被它识别为噪声的对象。 K均值使用簇的基于原形的概念,而DBSCAN使用基于密度的概念。 DBSCAN可以处理不同大小和不同形状的簇,并且不太受噪声和离群点的影响。K均值很难处理非球状的簇和不同大小的簇。当簇具有很不同的密度时,两种算法的性能都很差。 K均值只能用于具有明确定义的质心(如均值或中位数)的数据。DBSCAN要求密度定义(基于传统的欧几里得密度概念)对于数据是有意义的。

文档评论(0)

1亿VIP精品文档

相关文档