聚类分析Clusteringanalysis-Read.PPT

聚类分析Clusteringanalysis-Read

聚类分析 Clustering analysis 卢亮 2006/3/23·搜索引擎沙龙 摘要 聚类分析简介 层次聚类 K-Mean聚类 Vivisimo bbmao 聚类分析简介 文本信息模型 什么是聚类 聚类与分类的区别 聚类的应用 层次聚类(hierarchical clustering ) 信息之间的相识度 至顶而下和之下而上的两种做法 何时停止需要判定 时间的复杂程度O(n^2) 矩阵操作 向量空间的单文档表示 n, 全部的关键词 Wi,关键词的权重 Ti,关键词 矢量模型下相似度的计算 相识度的计算:内积(点乘) 基于相似度的聚类 层次聚类的核心问题 信息与类之间的相识度 如何判断两个类最相似? 最近,最远,平均 何时停止 最远距离, 最大类的数目, 类的数目 修正 合并和分裂后如何修正? 例子(简并算法) K-Mean 随即选取凝结中心 计算各个信息与凝结中心的距离 将各个信息与凝结中心绑定成为群 根据群调整凝结中心的位置 重复以上操作直至凝结中心稳定 例子 Vivisimo bbmao * * 提取样本(Web) 制定信息之间相关度的规则 计算每两个信息之间的相关度 聚类分析(推荐 Cluto 进行运算) /archives/000916.html 凝结中心 信息 * * *

文档评论(0)

1亿VIP精品文档

相关文档