网站大量收购独家精品文档,联系QQ:2885784924

第5章聚类分析2.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章聚类分析2

5.2 聚类准则函数 在样本相似性度量的基础上,聚类分析还需要一定的准则函数,才能把真正属于同一类的样本聚合成一个类型的子集,而把不同类的样本分离开来。如果聚类准则函数选得好,聚类质量就会高。同时,聚类准则函数还可以用来评价一种聚类结果的质量,如果聚类质量不满足要求,就要重复执行聚类过程,以优化结果。在重复优化中,可以改变相似性度量,也可以选用新的聚类准则。 1.误差平方和准则(最常用的) 假定有混合样本,采用某种相似性度量,被聚合成个分离开的子集,每个子集是一个类型,它们分别包含个样本。 为了衡量聚类的质量,采用误差平方和聚类准则函数,定义为: 式中为类型中样本的均值:,。 是个集合的中心,可以用来代表个类型。 是样本和集合中心的函数。在样本集给定的情况下,的取值取决于个集合中心。描述个试验样本聚合成个类型时,所产生的总误差平方和。越小越好。 最小方差划分:寻找最小的聚类结果,也就是在误差平方和准则下的最优结果。 误差平方和准则适用于各类样本比较密集且样本数目悬殊不大的样本分布。例如: 上图的样本分布,共有3个类型,各个类型的样本数目相差不多(10个左右)。类内较密集,误差平方和很小,类别之间距离远。 注意:如果不同类型的样本数目相差很大,采用误差平方和准则,有可能把样本数目多的类型分开,以便达到总的最小。如下图所示: 下面进一步说明上述问题: 例如:有5个样本,如下图所示~,。 虚线为正确类型区分域,实线为采用误差平方和最小准则时的类别区分。 虚线划分时:, , 实线划分时:, , 所以,如果按误差平方和准则聚类将得到错误结果。 2.加权平均平方距离和准则 定义:加权平均平方距离和准则。 式中:是类内样本间平均平方距离。 ,所有的样本之间距离的平均值。 中的样本个数,中的样本两两组合共有种。 表示所有样本之间距离之和。 为类的先验概率,可以用样本数目和样本总数目来估计。 , 因此: 用重新讨论误差平方和准则中所举例子。 5个样本,如上图所示~,。,,,,。 虚线划分时:, ,。 实线划分时:, ,。 虽然,但已较接近。所以,当各类样本数目相差悬殊时,使用加权平均平方距离和准则,要比使用误差平方和准则容易得到正确聚类结果。同一样,越小,样本类内越密集。以聚合中心为极大值的局部区域密度越高,聚类结果越好。 3.类间距离和准则 类间距离和可用于描述聚类结果的类间距离分布状态。它定义为: 加权类间距离和: 式中,为类型的样本均值向量:,。 为全部样本的均值向量:。 为类型的先验概率,可以用来估计。 对于两类问题,类间距离常用计算。 两类问题的加权类间距离和: 将代入上式,有: 类间距离和准则描述不同类型之间的分离程度,所以的值越大,表示各类之间分离性好,聚类质量高。 4.散射矩阵 为了对聚类质量有一个全面的描述和考核标准,可以通过散射矩阵引导出一些准则函数,它们不但反映同类样本的聚集程度,而且也反映不同类之间的分离程度。 假定混合样本集的个样本被聚集成个类型的子集,每个子集有个样本,则类内散射矩阵定义为: ① 其中为某一个类型的类内散射矩阵: 表示类型的第个样本,。 类间散射矩阵定义为: ② 式中,为各类型的均值向量,为全部样本的均值向量,()为各类型先验概率。 定义全部样本的总散射矩阵为: ③ 上述3个散射矩阵有如下关系; 证明: 这一结果表明,对于给定的混合样本集,类内散射的减少,将导致类间散射的增加。对某一聚类结果,类内散射越小越好,类间散射越大越好。利用、、可以定义如下的4个聚类准则: 表示矩阵的迹,也就是对角线元素之和,||为行列式。~同时考虑了类内的散射和类间散射,为了得到好的聚类结果,它们的值越大越好。 为了便于计算,考虑到矩阵的迹和行列式的旋转不变性,我们总可以找到一个正交矩阵,使。 是维的对称矩阵,是维正交归一化矩阵,是以特征值为对角线的对角矩阵。则有: 又由于:,为维单位矩阵。 所以: 因此,只要求出的特征值,就很容易求得~。若~足够大,则聚类质量好;若较小,在则聚类质量差,应该重新聚类。 1

文档评论(0)

tianma2015 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档