1 模式识别原理课件-第1、2章 绪论 聚类分析【统计学经典】.ppt

1 模式识别原理课件-第1、2章 绪论 聚类分析【统计学经典】.ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
④ 返回第②步,以Z1(3), Z2(3)为中心进行聚类。 ② 以新的聚类中心分类,求得的分类结果与前一次迭代结果相 同: ③ 计算新聚类中心向量值,聚类中心与前一次结果相同,即: ④ ,故算法收敛,得聚类中心为 结果图示: 图2.10 K-均值算法聚类结果 X1 X4 X3 X5 X8 X9 X7 X10 X2 X6 x1 x2 1 3 5 7 9 1 3 5 7 9 0 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 上述K-均值算法,其类型数目假定已知为K个。当K未知时, 可以令K逐渐增加, 此时J j 会单调减少。最初减小速度快,但当 K 增加到一定数值时,减小速度会减慢,直到K =总样本数N 时,Jj = 0。Jj-K关系曲线如下图: 3、聚类准则函数Jj与K的关系曲线 Jj A 1 3 5 7 2 4 6 0 8 10 9 K 曲线的拐点 A 对应着接近最优 的K值(J 值减小量、计算量以及 分类效果的权衡)。 并非所有的情况都容易找到关 系曲线的拐点。迭代自组织的数据 分析算法可以确定模式类的个数K 。 2.5.2 迭代自组织的数据分析算法 (iterative self-organizing data analysis techniques algorithm,ISODATA) 算法特点 加入了试探性步骤,组成人机交互的结构; 可以通过类的自动合并与分裂得到较合理的类别数。 相似:聚类中心的位置均通过样本均值的迭代运算决定。 相异: K-均值算法的聚类中心个数不变; ISODATA的聚类中心个数变化。 与K-均值算法比较: 1.算法简介 基本思路: (1)选择初始值——包括若干聚类中心及一些指标。可在迭代运 算过程中人为修改,据此将N个模式样本分配到各个聚类中 心去。 (3)聚类后的处理:计算各类中的距离函数等指标,按照给定的 要求,将前次获得的聚类集进行分裂或合并处理,以获得新 的聚类中心,即调整聚类中心的个数。 (4)判断结果是否符合要求: 符合,结束; 否则,回到(2)。 (2)按最近邻规则进行分类。 算法共分十四步: 第一 ~ 六步:预选参数,进行初始分类。 为合并和分裂准备必要的数据。 第七步:决定下一步是进行合并还是进行分裂。 第八 ~ 十步:分裂算法。 第十一 ~ 十三步:合并算法。 第十四步:决定算法是否结束。 2.算法描述 设有N个模式样本X1,X2,…,XN 。 预选参数,进行初始分类。 第一步:预选NC个聚类中心 , NC也是聚类过程 中实际的聚类中心个数。预选指标: K:希望的聚类中心的数目。 θN:每个聚类中应具有的最少样本数。若样本少于θN ,则该 类不能作为一个独立的聚类,应删去。 θS :一个聚类域中样本距离分布的标准差阈值。标准差向量的 每一分量反映样本在特征空间的相应维上,与聚类中心的 位置偏差(分散程度)。要求每一聚类内,其所有分量中 的最大分量应小于θS,否则该类将被分裂为两类。 θC :两聚类中心之间的最小距离。若两类中心之间距离小于 θC,则合并为一类。 L:在一次迭代中允许合并的聚类中心的最大对数。 I:允许迭代的次数。 第二步:把N个样本按最近邻规则分配到NC个聚类中。 若 则 第三步:若Sj中的样本数NjθN ,则取消该类,并且NC减去1。 第四步:修正各聚类中心值。 第五步:计算Sj类的类内平均距离 。 第六步:计算总体平均距离 ,即全部样本到各自聚类中心距 离的平均距离。 θN:每类应具有的 最少样本数。 3) 如果迭代的次数是偶数,或NC≥2K,即聚类中心数目大于或 等于希望数的两倍,则跳到第十一步(合并)。否则进入第八步 (分裂)。 第七步:判决是进行分裂还是进行合并,决定迭代步骤等。 判断分裂还是合并。 1) 如迭代已达I次(最后一次),置θC=0 ,跳到第十一步(合并)。 2) 若NC≤K/2,即聚类中心小于或等于希望数的一半

文档评论(0)

好文精选 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档