- 1
- 0
- 约7.48千字
- 约 65页
- 2017-07-07 发布于湖北
- 举报
误差平方和准则 误差平方和准则是最简单也使用最广的聚类准则函数 其中 是第i个聚类 中样本的均值 当数据点能被划分成很好的相互区分的几个聚类,并且聚类内部又很稠密时,适用误差平方和准则 误差平方和准则 采用误差平方和准则可能存在的问题 当不同聚类所包含的样本个数相差较大时,将一个大的聚类分割开来反而可能得到更小的误差平方和 最小方差准则 由于误差平方和准则度量的是样本点到聚类均值的方差,所以它是最小方差准则的一种 与误差平方和准则等价的形式 其中, 为第i个聚类中的样本个数 最小方差准则的一般形式 为某种相似性函数 散布准则 均值向量 第i个聚类的均值向量 总的均值向量 散布准则 散布矩阵 第i个聚类的散布矩阵 总的散布矩阵 聚类内散布矩阵 散布准则 散布矩阵 聚类间散布矩阵 聚类内散布矩阵和聚类间散布矩阵的关系 散布准则 为了得到更好的聚类质量,我们希望得到较小的聚类内散布和较大的聚类间散布 需要某种标量度量矩阵的“大小”,如矩阵的迹(trace,即矩阵对角线上元素之和) 由于 ,而 与如何划分聚类无关,所以,最小化 就同时最大化聚类间散布矩阵的迹 标量度量也可选用矩阵的行列式 迭代最优
原创力文档

文档评论(0)