聚类分析简单例子-1.ppt

下载文档

10
0
约4.08千字
约 38页
2019-12-10 发布于四川
举报
版权申诉
保障服务

聚类分析简单例子-1.ppt

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

三、类间距离的统一性上述八种系统聚类法的步骤完全一样，只是距离的递推公式不同。兰斯（Lance）和威廉姆斯（Williams）于1967年给出了一个统一的公式。 (5.28) 其中ap、aq、 ? 、 ?是参数，不同的系统聚类法，它们取不同的数，详见表5.8。这里应该注意，不同的聚类方法结果不一定完全相同，一般只是大致相似。如果有很大的差异，则应该仔细考查，找到问题所在；另外，可将聚类结果与实际问题对照，看哪一个结果更符合经验。表5.8 系统聚类法参数表【例5.3】假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表5.9。试将以上的样品聚成两类。表5.9 样品测量结果动态聚类法第一步：按要求取K=2，为了实施均值法聚类，我们将这些样品随意分成两类，比如（A、B）和（C、D），然后计算这两个聚类的中心坐标，见表5.10所示。表5.10中的中心坐标是通过原始数据计算得来的，比如（A、 B）类的，等等。表5.10 中心坐标第二步：计算某个样品到各类中心的欧氏平方距离，然后将该样品分配给最近的一类。对于样品有变动的类，重新计算它们的中心坐标，为下一步聚类做准备。先计算A到两个类的平方距离：由于A到（A、B）的距离小于到（C、D）的距离，因此A不用重新分配。计算B到两类的平方距离：由于B到（A、B）的距离大于到（C、D）的距离，因此B要分配给（C、D）类，得到新的聚类是（A）和（B、C、D）。更新中心坐标如表5.11所示。表5.11 更新后的中心坐标第三步：再次检查每个样品，以决定是否需要重新分类。计算各样品到各中心的距离平方，得结果见表5.12。到现在为止，每个样品都已经分配给距离中心最近的类，因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类，B、C、D聚成一类。表5.12 样品聚类结果一、系统聚类的基本思想系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。系统聚类过程是：假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其它的样品（或变量）仍各自聚为一类，共聚成n ?1类；第三步将“距离”最近的两个类进一步聚成一类，共聚成n ?2类；……，以上步骤一直进行下去，最后将所有的样品（或变量）全聚成一类。为了直观地反映以上的系统聚类过程，可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。除系统聚类法外，还有有序聚类法、动态聚类法、图论聚类法、模糊聚类法等，限于篇幅，我们只介绍系统聚类方法。二、类间距离与系统聚类法在进行系统聚类之前，我们首先要定义类与类之间的距离，由类间距离定义的不同产生了不同的系统聚类法。常用的类间距离定义有8种之多，与之相应的系统聚类法也有8种，分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。它们的归类步骤基本上是一致的，主要差异是类间距离的计算方法不同。以下用dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj 之间的距离。 1. 最短距离法定义类Gi与Gj之间的距离为两类最近样品的距离，即为 (5.11) 设Gk类与合并成一个新类记为Gr，则任一类与的距离为 (5.12) 最短距离法进行聚类分析的步骤如下：（1）定义样品之间距离，计算样品的两两距离，得一距离阵记为D（0），开始每个样品自成一类，显然这时Dij = dij。（2）找出距离最小元