基于数据分组处理方法的聚类模型材料.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
结论 与通常的聚类方法相比,OCA能自动,客观地确定聚类个数并找到最优聚类方案,然而,当一致性准则不能解决问题时,我们运用偶极子的概念,提出了新一致性准则。基于新一致性准则的GCA方法扩大了可聚类对象的适用范围。 基于数据分组处理方法的聚类分析模型 牛亚旭 信研1401 马超 信研1402 传统的聚类方法 数据分组处理聚类分析方法 实例分析 传统的聚类分析 人类认识世界的一种重要方法就是将认识的对象进行分类,分门别类的对事物进行研究,要远比在一个混杂多变的集合中更清晰明了和细致。 一、概述 通常,人们可以凭经验和专业知识来实现分类,而聚类分析作为一种定量方法,从数据分析的角度,给出一个更准确更细致的分类工具。 二、三种聚类方法 1、系统聚类 系统聚类法是聚类分析中用得较多的一种方法。 它通过建立、并逐步更新距离系数矩阵(或相似系数矩阵),找出并合并最接近的两类,直到全部分类对象被合并为一类为止。 据此合并过程,可以做出聚类图(或称分群图、谱系图),并确定类的个数和最后聚成的各类。 以样本聚类为例,系统聚类法的工作步骤如下: ① 计算全部n个样品两两间的距离{dij},并构成n维距离系数矩阵D。 ② 将每个样品作为一类,共构成n类。上述的n维矩阵D即为类间的距离系数矩阵。 ③ 由系数矩阵找出并合并距离最近的类为一新类,于是总的类数将至少减1。记下参加合并的类的序号与距离。 ④ 若只剩下一类了,转至步骤⑤。否则计算新类与当前其他各类的距离,调整系数矩阵D,然后返回步骤③。 ⑤ 根据步骤③中记录的序号和距离,画出聚类图。 ⑥ 确定类的个数,最后得到所聚成的各类。 2、分解聚类法 分解聚类法是将类由少变多的聚类法。先把全部个体当作一类,然后再分为两类,三类…,直到所有的个体自成一类。 3、动态聚类法 动态聚类法是先将样品粗略地分一下类,然后再按照某种原则进行修正,直至分类比较合理为止。其过程如下图1所示。 图1 动态聚类框图 在上述介绍的三种聚类方法中,系统聚类法和分解聚类法有一个共同点,就是样品一旦被归到某个类后就不再变了,这就要求分类的方法比较准确;而且当样品个数较大时,相应的计算量过大。 而动态聚类法可弥补它们的不足。 数据分组处理(GMDH)聚类分析 与前面提到的通常的聚类方法相比,传统的聚类方法中关于划分方法以及层次的方法这两个重要因素需要依赖于建模人员的先验知识,因而较多的依赖于建模人员的主观因素。 客观聚类分析方法(OCA)能自动、客观地确定聚类个数并找到最优聚类方案,通过算法步骤的剖析和算例分析,对客观聚类分析方法的核心构建,即一致性准则的不足进行评价,利用偶极子给出了新的一致性准则,提出了数据分组处理(GMDH)聚类分析方法。 一、基本原理 二、算法实现 2.2 基于偶极子的数据样本分组 从n个数据样本{x1,x2…,xn}可以得到 个偶极子,2.1中dij为该偶极子的值。将它们由小到大排列取前k=[n/2]个彼此没有共同样本的偶极子,将这些偶极子的xi构成子集A,样本xj构成子集B,这样使用偶极子将数据样本集合平均分成两个子集A和B。 在产生A和B之后,按同样的方法从剩余的偶极子可得到样本子集C和D作为检测集。 2.3 进行聚类 step1:将子集A和B分别聚为k类; 把产生子集A,B的全体k个偶极子按他们的值从小到大的顺序进行编号,称该编号为这个偶极子的编号或其中两个样本的编号。 Step2:将子集A和B分别聚成k-1类; 分别将子集A和B中距离最近的两个类聚为一类,则子集A和B都被聚成k-1个类。 Step3: 重复step2,将子集A和B分别聚成k-2个类,注意各子集中类与类之间的距离由两类中距离最近的样本间的距离给出。此时集合AUB中仍有k个列 继续上述过程,直到将子集A和B聚成两个类。 Step4: 找出所有准则值 的聚类方案,它们为最优聚类方案的候选方案。 2.4 运用检测集C和D找出一个唯一的最优聚类方案 在检测集C和D上进行聚类,方法与在A,B集进行的聚类过程相同,考察在A,B集上 的几种聚类方案,看哪种聚类方案在检测集C,D上也满足 ,则这个聚类是要找的最优的聚类方案。 当找不到 时怎么办? 2.新一致性准则: 假设集合A,B已分别聚为k

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档