聚类算法简介研讨.ppt

下载文档 降价啦

3
0
约 29页
2017-05-07 发布于湖北
举报
保障服务

聚类算法简介研讨.ppt

聚类算法简介研讨

聚类算法简介什么是聚类? 聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小; 为什么需要聚类? 对相似的文档或超链接进行聚类，由于类别数远小于文档数，能够加快用户寻找相关信息的速度; 聚类图示聚类中没有任何指导信息，完全按照数据的分布进行类别划分什么是分类? 数据集合，类别标记集合数据集合：训练数据待分类数据已知问题：方法：根据训练数据获得类别划分标准分类图示训练数据待分类数据聚类与分类的区别有类别标记和无类别标记; 有监督与无监督; （有训练语料与无训练语料） Train And Classification （分类）; No Train（聚类）; 聚类的基本要素定义数据之间的相似度; 聚类有效性函数（停止判别条件）; 1. 在聚类算法的不同阶段会得到不同的类别划分结果，可以通过聚类有效性函数来判断多个划分结果中哪个是有效的; 2. 使用有效性函数作为算法停止的判别条件，当类别划分结果达到聚类有效性函数时即可停止算法运行; 类别划分策略（算法）; 通过何种类别划分方式使类别划分结果达到有效性函数; 相似度 Euclidean Distance 数据表示为向量，向量中某一维对

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

聚类算法简介研讨.ppt