模式识别课件第五章聚类分析.ppt

下载文档 降价啦

0
0
约1.83万字
约 130页
2019-12-04 发布于广东
举报
版权申诉
保障服务

模式识别课件第五章聚类分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

z5远离其他四个聚类中心，若z5聚类域中的样本数在整个样本集中占有一定的比例，则认为z5是正确的聚类中心，假使z5聚类城中仅有一、二个样本，则须进一步研究是否是由于实验误差或噪音等引起的，然后再考虑z5的取舍。 5.2.5 对聚类的评价每类中的样本数，距离近的两类中样本数少，可合并。如两个聚类中心间的距离很小，并且域中的样本数又占一定的比例，则有时也可考虑合并这两个聚类域。 5.2.5 对聚类的评价 ⒉各个聚类中子域中的标准差聚类域的方差能用来推断聚类城中样本的相对分布，如表5.2所示。表5.2 解择聚类结果的方差表聚类域方差 X1 X2 X3 X4 X5 1.2 2.0 3.7 0.3 4.2 0.9 1.3 4.8 0.8 5.4 0.7 1.5 7.3 0.7 18.3 1.0 0.9 10.4 1.1 3.3 5.2.5 对聚类的评价为简化起见，假设样本模式是四维的，Xi表示第i个聚类域，每一方差元素沿着一个方向的坐标轴。从表中可推断样本总体的若干特性。因此将方差表与距离表及聚类城中样本数结合起来分析，可以较好地评价聚类的结果。此外，这些图表中的数据资料能对迭代算法中的参数选择起指导作用。 Xi的、、、的值比较接近，它的聚类域可能是接近球形的。 X5的比其它几个方向的值大，则说明沿第三个坐标轴方向上拉长，这个聚类域的模式分布可能是长的。 5.2.5 对聚类的评价结果与观察给定模式所得的结果是相符的。例5.2 如图5.12给出20个二维的样本，用k均值算法进行聚类。 5.2.4 k-均值算法和ISODATA算法图 5.12 k均值算法所用的样本模式 1 2 3 4 5 6 7 8 x1 x2 0 1 10 2 3 4 5 6 7 8 9 9 10 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 二、ISODATA算法 ISODATA算法(Iterative Self-organizing Data Analysis Techniques A迭代自组织数据分析技术)在k-均值算法基础上，在迭代过程中增加了某种产生和消除某些类别的方法，具有自动合并和分裂类，自动寻找类别数k的功能。在每一次迭代时，首先，在不改变类别数目的前提下来改变分类，然后，将样本平均矢量之差小于某一预定阈值的每一类别对合并起来，或根据样本协方差矩阵来决定其分裂与否，一次一次地迭代，并不断地进行合并和分开，这种算法具有人机交互和启发式的特点。 5.2.4 k-均值算法和ISODATA算法㈠算法参数 k — 要找的聚类中心数； θN — 每一类中至少应具有的样本个数（少于此值的样本点集去掉）； θs — 类内的样本标准差阈值（判别类是否太大，若太大分2类），取总体分布各个特征分量轴上标准差σi，取其一部分用ασi表示，0α1， i =1，2，…，N； 5.2.4 k-均值算法和ISODATA算法㈠算法参数 L — 一次迭代运算中可合并的最多对数（一般取一对）； I — 允许迭代的次数（相当于k-均值算法中的M）； θc — 两类中心距的最小距离（＜θc，可合并）。 5.2.4 k-均值算法和ISODATA算法㈡算法步骤基本步骤： ⑴初始化，任意选定c个聚类中心，z1(1)，z2(1)，…，zc(1)，定义算法参数，k，θN，θs，θc，L，I。 ⑵分配N个样本到c类中，按最近邻原则计算，若||x-zi||||x-zj|，i =1，2，…，c，i≠j，则x∈Xi，其中Xi表示分到聚类中心zi的样本子集，Ni为Xi中的样本数。 ⑶若对任意的i，NiθN，则去除Xi，并使c = c-1，即将样本数比θN少的样本子集去除。 5.2.4 k-均值算法和ISODATA算法㈡算法步骤以下三步计算距离： ⑷修正聚类中心zi，，i =1，2，…，c ⑸计算Xi中样本与其对应的中心的平均距离，i =1，2，…，c 5.2.4 k-均值算法和ISODATA算法㈡算法步骤 ⑹计算总体的平均距离其中N为样本集中的样本总数。 ⑺判断： ①若是最后一次迭代，l = I，置θc = 0，转⑾步算法结束。 ②若，直接转到第⑻步，分裂类操作。 5.2.4 k-均值算法和ISODATA算法㈡算法步骤 ③若c≥2k，直接转到⑾步，合并类操作。 ④若②、③类不满足，继续。 ⑻计算标准差σij 其中d是样本模式的维数，xkj是Xj中第k个样本的第j个分量，zij是zi的第j个分量。 j =1，2，…，d；