4.聚类分析.ppt

4.聚类分析

思考 选用什么方法聚类,原因是什么. 选择哪些样本;选择哪些变量 快速聚类还是系统聚类? 点间距如何定义?类间距如何定义? 选择哪些输出结果?是否保存分类结果? 聚类结果是什么?有何启示? 分析是否有局限,有改进的思路吗? 二、变量相似性的度量 夹角余弦 相关系数 数据标准化后的夹角余弦 类间距的度量 类:一个不严格的定义 定义9.1:距离小于给定阀值的点的集合 类的特征 重心:均值 样本散布阵和协差阵 直径 类间距的定义 最短距离法 最长距离法 重心法 类平均法 离差平方和法 等等 最小距离法(single linkage method) 极小异常值在实际中不多出现,避免极大值的影响 最大距离法(complete linkage method) 可能被极大值扭曲,删除这些值之后再聚类 类平均距离法(average linkage method) 类间所有样本点的平均距离 该法利用了所有样本的信息,被认为是较好的系统聚类法 重心法(centroid hierarchical method) 类的重心之间的距离 对异常值不敏感,结果更稳定 离差平方和法(sum of squares method或ward method) W代表直径,D2=WM-WK-WL 即 对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。 Clust

文档评论(0)

1亿VIP精品文档

相关文档