2014聚类算法学习笔记.docVIP

  • 3
  • 0
  • 约4.75千字
  • 约 6页
  • 2016-12-24 发布于北京
  • 举报
聚类的定义 聚类是一个将数据集划分为若干个子集的过程,并使得同一集合内的数据对象具有较高的相似度,而不同集合中的数据对象则是不相同的,相似或不相似的度量是基于数据对象描述属性的聚类值来确定的,通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大程度地实现类中对象相似度最大,类间对象相似度最小。 聚类与分类不同,在分类模型中,存在样本数据,这些数据的类标号是已知的,分类的目的是从训练样本集中提取出分类的规则,用于对其他标号未知的对象进行类标识。在聚类中,预先不知道目标数据的有关类的信息,需要以某种度量为标准将所有的数据对象划分到各个簇中。因此,聚类分析又称为无监督的学习。 聚类主要包括以下几个过程: 数据准备:包括特征标准化和降维。 特征选择、提出:从最初的特征中选择是有效的特征,并将其存储于向量中。 特征提取:通过对所选择的特征进行转换,形成新的突出特征。 聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量,然后执行聚类或分组。 聚类结果评估:指对聚类结果进行评估。评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。 聚类算法的要求 可扩展性。许多聚类算法在小数据集(少于200个数据对象)时可以工作很好;但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果,这时就需要可扩展的聚

文档评论(0)

1亿VIP精品文档

相关文档