- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1第三节系统聚类分析法一、系统聚类的基本思想一、系统聚类的基本思想系统聚类过程是:假设总共有n个样品(或变量),数据变换:可以使用上节介绍的方法对数据进行变换.数据变换目的是为了便于比较、计算上的方便或改变数据的结构.选择度量样品间距离的定义(如欧氏距离)及度量类间距离的定义(如最短距离法,见下面“系统聚类分析的方法”中的介绍).①计算n个样品(个体)两两间的距离,得初始的距离矩阵D(1).②第一步:将每个样品(或变量)独自聚成一类,共有n类;③第二步:根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n?1类;④第三步:将“距离”最近的两个类进一步聚成一类,共聚成n?2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成1类。为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。除系统聚类法外,还有有序聚类法、动态聚类法、图论聚类法、模糊聚类法等,限于篇幅,我们只介绍系统聚类方法。二、类间距离与系统聚类法在进行系统聚类之前,我们首先要定义类与类之间的距离,由类间距离定义的不同产生了不同的系统聚类法。常用的类间距离定义有8种之多,与之相应的系统聚类法也有8种,分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。它们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。以下用dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。1.最短距离法 定义类Gi与Gj之间的距离为两类最近样品的距离,即为 (5.11)设类Gp与Gq合并成一个新类记为Gr,则任一类Gk与Gr的距离为 (5.12)最短距离法进行聚类分析的步骤如下: (1)定义样品之间距离,计算样品的两两距离,得一距离阵记为D(0),开始每个样品自成一类,显然这时Dij=dij。(2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个 新类,记为Gr,即Gr={Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。(4)重复(2)、(3)两步,直到所有元素。并成一类为止。如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。注意:样品或变量间的距离与类间的距离计算方法是不一样的,此处最短距离是计算类间距离的,样品或变量间的距离由前面的距离公式计算【例5.1】设有六个样品,每个只测量一个指标,分别是1,2,5,7,9,10,试用最短距离法将它们分类。 (1)样品采用绝对值距离,计算样品间的距离阵D(0),见表5.1(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,即:删除G1和G2的行列改为G7,删除G5和G6的行列改为G8。并利用(5.12)式计算新类与其它类的距离D(1)即分别计算G7和G8与G3和G4距离以及G7与G8距离,如 (3)在D(1)中最小值是D34=D48=2,由于G4与G3合并, 又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其 它类的距离D(2),见表5.3 (4)最后将G7和G9合并成G10,这时所有的六个样品聚为一类,其过程终止。 上述聚类的可视化过程见图5.1所示,横坐标的刻度表示并类的距离。这里我们应该注意,聚类的个数要以实际情况所定,其详细内容将在后面讨论。2.最长距离法(5.14)再找距离最小两类并类,直至所有的样品全归为一类为止。可以看出最长距离法与最短距离法只有两点不同:一是类与类之间的距离定义不同;另一是计算新类与其它类的距离所用的公式不同。【例5.2】设有六个样品,每个只测量一个指标,分
文档评论(0)