聚类算法简介研讨.ppt

聚类算法简介研讨

聚类算法简介 什么是聚类? 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小; 为什么需要聚类? 对相似的文档或超链接进行聚类,由于类别数远小于文档数,能够加快用户寻找相关信息的速度; 聚类图示 聚类中没有任何指导信息,完全按照数据的分布进行类别划分 什么是分类? 数据集合 ,类别标记集合 数据集合: 训练数据 待分类数据 已知 问题: 方法:根据训练数据获得类别划分标准 分类图示 训练数据 待分类数据 聚类与分类的区别 有类别标记和无类别标记; 有监督与无监督; (有训练语料与无训练语料) Train And Classification (分类); No Train(聚类); 聚类的基本要素 定义数据之间的相似度; 聚类有效性函数(停止判别条件); 1. 在聚类算法的不同阶段会得到不同的类别划分结果,可以通过聚类有效性函数来判断多个划分结果中哪个是有效的; 2. 使用有效性函数作为算法停止的判别条件,当类别划分结果达到聚类有效性函数时即可停止算法运行; 类别划分策略(算法); 通过何种类别划分方式使类别划分结果达到有效性函数; 相似度 Euclidean Distance 数据表示为向量,向量中某一维对

文档评论(0)

1亿VIP精品文档

相关文档