2014聚类算法学习笔记.docVIP

下载本文档

3
0
约4.75千字
约 6页
2016-12-24 发布于北京
举报

2014聚类算法学习笔记.doc

聚类的定义聚类是一个将数据集划分为若干个子集的过程，并使得同一集合内的数据对象具有较高的相似度，而不同集合中的数据对象则是不相同的，相似或不相似的度量是基于数据对象描述属性的聚类值来确定的，通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大程度地实现类中对象相似度最大，类间对象相似度最小。聚类与分类不同，在分类模型中，存在样本数据，这些数据的类标号是已知的，分类的目的是从训练样本集中提取出分类的规则，用于对其他标号未知的对象进行类标识。在聚类中，预先不知道目标数据的有关类的信息，需要以某种度量为标准将所有的数据对象划分到各个簇中。因此，聚类分析又称为无监督的学习。聚类主要包括以下几个过程：数据准备：包括特征标准化和降维。特征选择、提出：从最初的特征中选择是有效的特征，并将其存储于向量中。特征提取：通过对所选择的特征进行转换，形成新的突出特征。聚类（或分组）：首先选择合适特征类型的某种距离函数（或构造新的距离函数）进行接近程度的度量，然后执行聚类或分组。聚类结果评估：指对聚类结果进行评估。评估主要有3种：外部有效性评估、内部有效性评估和相关性测试评估。聚类算法的要求可扩展性。许多聚类算法在小数据集（少于200个数据对象）时可以工作很好；但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果，这时就需要可扩展的聚

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2014聚类算法学习笔记.docVIP