魏秀参周旺
周魏
旺秀
参
第九章:聚类
大纲
聚类任务
性能度量
距离计算
原型聚类
密度聚类
层次聚类
大纲
聚类任务
性能度量
距离计算
原型聚类
密度聚类
层次聚类
聚类任务
在“无监督学习”任务中研究最多、应用最广.
聚类目标:将数据集中的样本划分为若干个通常不相交的子集
(“簇”,cluster).
聚类既可以作为一个单独过程(用于找寻数据内在的分布结构),
也可作为分类等其他学习任务的前驱过程.
聚类任务
形式化描述
假定样本集 包含 个无标记样本,每个样本
是一个 维的特征向量,聚类算法将样本集
划分成 个不相交的簇 。其中 ,且
。。
相应地,用 表示样本 的 “簇标记”(即cluster
label),即 。于是,聚类的结果可用包含 个元素的簇标记
向量 表示。
大纲
聚类任务
性能度量
距离计算
原型聚类
密度聚类
层次聚类
性能度量
聚类性能度量,亦称为聚类“有效性指标”(validity index )
直观来讲:
我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽
可能不同。换言之,聚类结果的“簇内相似度”(intra-cluster similarity)
高,且“簇间相似度”(inter-cluster similarity)低,这样的聚类效果较好.
性能度量
聚类性能度量:
外部指标 (external index)
将聚类结果与某个“参考模型”(reference model)进行比较。
内部指标(internal index)
直接考察聚类结果而不用任何参考模型。
性能度量
对数据集 ,假定通过聚类得到的簇划分为
,参考模型给出的簇划分为 .相应地,
令 与 分别表示与 和 对应的簇标记向量.
我们将样本两两配对考虑,定义
性能度量 - 外部指标
Jaccard系数(Jaccard Coefficient, JC)
FM指数(Fowlkes and Mallows Index, FMI)
[0,1]区间内,
越大越好.
Rand指数(Rand Index, RI)
性能度量 – 内部指标
考虑聚类结果的簇划分 ,定义
簇 内样本间的平均距离
簇 内样本间的最远距离
簇 与簇 最近样本间的距离
簇 与簇 中心点间的距离
性能度量 – 内部指标
DB指数 (Davies-Bouldin Index, DBI)
越小越好.
Dunn指数 (Dunn Index, DI)
越大越好.
大纲
聚类任务
性能度量
距离计算
原型聚类
密度聚类
层次聚类
距离计算
距离
原创力文档

文档评论(0)