魏秀参周旺.pdf

下载文档 降价啦

1
0
约8.3千字
约 51页
2017-09-02 发布于天津
举报
保障服务

魏秀参周旺.pdf

魏秀参周旺

周魏旺秀参第九章：聚类大纲  聚类任务  性能度量  距离计算  原型聚类  密度聚类  层次聚类大纲  聚类任务  性能度量  距离计算  原型聚类  密度聚类  层次聚类聚类任务  在“无监督学习”任务中研究最多、应用最广.  聚类目标：将数据集中的样本划分为若干个通常不相交的子集（“簇”，cluster）.  聚类既可以作为一个单独过程（用于找寻数据内在的分布结构），也可作为分类等其他学习任务的前驱过程. 聚类任务  形式化描述假定样本集包含个无标记样本,每个样本是一个维的特征向量，聚类算法将样本集划分成个不相交的簇。其中，且。。相应地，用表示样本的 “簇标记”（即cluster label）,即。于是，聚类的结果可用包含个元素的簇标记向量表示。大纲  聚类任务  性能度量  距离计算  原型聚类  密度聚类  层次聚类性能度量  聚类性能度量，亦称为聚类“有效性指标”（validity index ）  直观来讲：我们希望“物以类聚”，即同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。换言之，聚类结果的“簇内相似度”（intra-cluster similarity）高，且“簇间相似度”（inter-cluster similarity）低，这样的聚类效果较好. 性能度量  聚类性能度量：  外部指标 (external index) 将聚类结果与某个“参考模型”(reference model)进行比较。  内部指标(internal index) 直接考察聚类结果而不用任何参考模型。性能度量对数据集，假定通过聚类得到的簇划分为，参考模型给出的簇划分为 .相应地，令与分别表示与和对应的簇标记向量. 我们将样本两两配对考虑，定义性能度量 - 外部指标  Jaccard系数（Jaccard Coefficient, JC）  FM指数（Fowlkes and Mallows Index, FMI） [0,1]区间内, 越大越好.  Rand指数（Rand Index, RI）性能度量 – 内部指标  考虑聚类结果的簇划分，定义簇内样本间的平均距离簇内样本间的最远距离簇与簇最近样本间的距离簇与簇中心点间的距离性能度量 – 内部指标  DB指数（Davies-Bouldin Index, DBI）越小越好.  Dunn指数（Dunn Index, DI）越大越好. 大纲  聚类任务  性能度量  距离计算  原型聚类  密度聚类  层次聚类距离计算  距离

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

魏秀参周旺.pdf