聚类分析研讨.ppt

聚类分析研讨

K-means process Important: initial centroids or cluster centers and the number of clusters 注意:快速聚类需事先确定分几类 容易产生局部最优而非全局最优,初始分类很重要 初始类中心的确定 自动选择 必须给出允许分类的最大个数k 凭经验选择 可以先选取部分样本作系统聚类(例如用Ward‘s方法,它与K-means的分类原则很相似),以得到初始分类的类中心(并确定分类数),建立一个初始中心数据文件, 快速聚类的SPSS实现 快速聚类主对话框 指定分类数 先定初始类别中心,再按K-means算法叠代分类 仅按初始类别中心点分类 类中心的输入输出 “迭代”对话框:叠代终止准则 限定K-means算法的收敛判据:0N1,含义:当两次叠代计算的最小的类中心的变化距离小于初始类中心距离的N%时,叠代停止。 限定在每个观测量被分配到一类后,马上计算新的类中心。如不选此项,则在完成了所有观测量的一次分配后,再计算各类的类中心 “保存” 对话框 建立一个新变量记录分类结果(默认名:qx1_1)。 建立一个新变量记录各观测量距所属类中心间的欧式距离(默认名:qc1_2) “选项” 对话框 缺失值处理 将有缺失值的样本剔出 只有当样本的全部聚类变量都缺失时才剔出样本,否则根据非缺失变量分类 类别间距离差异是否

文档评论(0)

1亿VIP精品文档

相关文档