模式识别课件第五章聚类分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
z5远离其他四个聚类中心,若z5聚类域中的样本数在整个样本集中占有一定的比例,则认为z5是正确的聚类中心,假使z5聚类城中仅有一、二个样本,则须进一步研究是否是由于实验误差或噪音等引起的,然后再考虑z5的取舍。 5.2.5 对聚类的评价 每类中的样本数,距离近的两类中样本数少,可合并。 如两个聚类中心间的距离很小,并且域中的样本数又占一定的比例,则有时也可考虑合并这两个聚类域。 5.2.5 对聚类的评价 ⒉各个聚类中子域中的标准差 聚类域的方差能用来推断聚类城中样本的相对分布,如表5.2所示。 表5.2 解择聚类结果的方差表 聚类域 方 差 X1 X2 X3 X4 X5 1.2 2.0 3.7 0.3 4.2 0.9 1.3 4.8 0.8 5.4 0.7 1.5 7.3 0.7 18.3 1.0 0.9 10.4 1.1 3.3 5.2.5 对聚类的评价 为简化起见,假设样本模式是四维的,Xi表示第i个聚类域,每一方差元素沿着一个方向的坐标轴。从表中可推断样本总体的若干特性。 因此将方差表与距离表及聚类城中样本数结合起来分析,可以较好地评价聚类的结果。此外,这些图表中的数据资料能对迭代算法中的参数选择起指导作用。 Xi的 、 、 、 的值比较接近,它的聚类域可能是接近球形的。 X5的 比其它几个方向的值大,则说明沿第三个坐标轴方向上拉长,这个聚类域的模式分布可能是长的。 5.2.5 对聚类的评价 结果与观察给定模式所得的结果是相符的。 例5.2 如图5.12给出20个二维的样本,用k均值算法进行聚类。 5.2.4 k-均值算法和ISODATA算法 图 5.12 k均值算法所用的样本模式 1 2 3 4 5 6 7 8 x1 x2 0 1 10 2 3 4 5 6 7 8 9 9 10 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 二、ISODATA算法 ISODATA算法(Iterative Self-organizing Data Analysis Techniques A迭代自组织数据分析技术)在k-均值算法基础上,在迭代过程中增加了某种产生和消除某些类别的方法,具有自动合并和分裂类,自动寻找类别数k的功能。 在每一次迭代时,首先,在不改变类别数目的前提下来改变分类,然后,将样本平均矢量之差小于某一预定阈值的每一类别对合并起来,或根据样本协方差矩阵来决定其分裂与否,一次一次地迭代,并不断地进行合并和分开,这种算法具有人机交互和启发式的特点。 5.2.4 k-均值算法和ISODATA算法 ㈠ 算法参数 k — 要找的聚类中心数; θN — 每一类中至少应具有的样本个数(少于此值的样本点集去掉); θs — 类内的样本标准差阈值(判别类是否太大,若太大分2类),取总体分布各个特征分量轴上标准差σi,取其一部分用ασi表示,0α1, i =1,2,…,N; 5.2.4 k-均值算法和ISODATA算法 ㈠ 算法参数 L — 一次迭代运算中可合并的最多对数(一般取一对); I — 允许迭代的次数(相当于k-均值算法中的M); θc — 两类中心距的最小距离(<θc,可合并)。 5.2.4 k-均值算法和ISODATA算法 ㈡ 算法步骤 基本步骤: ⑴初始化,任意选定c个聚类中心,z1(1),z2(1),…,zc(1),定义算法参数,k,θN,θs,θc,L,I。 ⑵分配N个样本到c类中,按最近邻原则计算,若||x-zi||||x-zj|,i =1,2,…,c,i≠j,则x∈Xi,其中Xi表示分到聚类中心zi的样本子集,Ni为Xi中的样本数。 ⑶若对任意的i,NiθN,则去除Xi,并使c = c-1,即将样本数比θN少的样本子集去除。 5.2.4 k-均值算法和ISODATA算法 ㈡ 算法步骤 以下三步计算距离: ⑷修正聚类中心zi, ,i =1,2,…,c ⑸计算Xi中样本与其对应的中心的平均距离 ,i =1,2,…,c 5.2.4 k-均值算法和ISODATA算法 ㈡ 算法步骤 ⑹计算总体的平均距离 其中N为样本集中的样本总数。 ⑺判断: ①若是最后一次迭代,l = I,置θc = 0,转⑾步算法结束。 ②若 ,直接转到第⑻步,分裂类操作。 5.2.4 k-均值算法和ISODATA算法 ㈡ 算法步骤 ③若c≥2k,直接转到⑾步,合并类操作。 ④若②、③类不满足,继续。 ⑻计算标准差σij 其中d是样本模式的维数,xkj是Xj中第k个样本的第j个分量,zij是zi的第j个分量。 j =1,2,…,d;

文档评论(0)

sandaolingcrh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档