魏秀参周旺.pdf

魏秀参周旺

周魏 旺秀 参 第九章:聚类 大纲  聚类任务  性能度量  距离计算  原型聚类  密度聚类  层次聚类 大纲  聚类任务  性能度量  距离计算  原型聚类  密度聚类  层次聚类 聚类任务  在“无监督学习”任务中研究最多、应用最广.  聚类目标:将数据集中的样本划分为若干个通常不相交的子集 (“簇”,cluster).  聚类既可以作为一个单独过程(用于找寻数据内在的分布结构), 也可作为分类等其他学习任务的前驱过程. 聚类任务  形式化描述 假定样本集 包含 个无标记样本,每个样本 是一个 维的特征向量,聚类算法将样本集 划分成 个不相交的簇 。其中 ,且 。。 相应地,用 表示样本 的 “簇标记”(即cluster label),即 。于是,聚类的结果可用包含 个元素的簇标记 向量 表示。 大纲  聚类任务  性能度量  距离计算  原型聚类  密度聚类  层次聚类 性能度量  聚类性能度量,亦称为聚类“有效性指标”(validity index )  直观来讲: 我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽 可能不同。换言之,聚类结果的“簇内相似度”(intra-cluster similarity) 高,且“簇间相似度”(inter-cluster similarity)低,这样的聚类效果较好. 性能度量  聚类性能度量:  外部指标 (external index) 将聚类结果与某个“参考模型”(reference model)进行比较。  内部指标(internal index) 直接考察聚类结果而不用任何参考模型。 性能度量 对数据集 ,假定通过聚类得到的簇划分为 ,参考模型给出的簇划分为 .相应地, 令 与 分别表示与 和 对应的簇标记向量. 我们将样本两两配对考虑,定义 性能度量 - 外部指标  Jaccard系数(Jaccard Coefficient, JC)  FM指数(Fowlkes and Mallows Index, FMI) [0,1]区间内, 越大越好.  Rand指数(Rand Index, RI) 性能度量 – 内部指标  考虑聚类结果的簇划分 ,定义 簇 内样本间的平均距离 簇 内样本间的最远距离 簇 与簇 最近样本间的距离 簇 与簇 中心点间的距离 性能度量 – 内部指标  DB指数 (Davies-Bouldin Index, DBI) 越小越好.  Dunn指数 (Dunn Index, DI) 越大越好. 大纲  聚类任务  性能度量  距离计算  原型聚类  密度聚类  层次聚类 距离计算  距离

文档评论(0)

1亿VIP精品文档

相关文档