教学课件 地址数据处理 聚类分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、最短距离法 二、最长距离法 三、中间距离法 四、类平均法 五、重心法 六、离差平方和法(Ward方法) 七、系统聚类法的统一 八、类的个数 一、最短距离法 定义类与类之间的距离为两类最近样品间的距离,即 最短距离法:DKL=d23 最短距离法的聚类步骤 (1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。 (2)选择D(0)中的最小元素,设为DKL,则做: (2a) 将GK和GL合并成一个新类,记为GM,即GM= GK∪GL。 (2b) 在D(0)中,GK和GL所在的行和列合并成一个新行新列,对应GM ,该行列上的新距离值按下列递推公式计算 ,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1) 。 计算新类GM与任一类GJ之间距离的递推公式为 递推公式的图示理解 GM (3)对D(1)重复上述对D(0)的两步得D(2) ,如此下去直至所有元素合并成一类为止。 如果某一步D(m)中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。最短距离法最容易产生结。 由于最短距离法是用两类之间最近样本点的距离来聚的,因此该方法不适合对分离得很差的群体进行聚类 例 设有五个样品,每个测量一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。 记G1={1},G2={2},G3={6},G4={8},G5={11},样品间采用绝对值距离。 G1 G2 G3 G4 G5 G1 0 G2 1 0 G3 5 4 0 G4 7 6 2 0 G5 10 9 5 3 0 D(0) D(1) G6 G3 G4 G5 G6 0 G3 4 0 G4 6 2 0 G5 9 5 3 0 其中G6= G1∪G2 D(2) G6 G7 G5 G6 0 G7 4 0 G5 9 3 0 其中G7= G3∪G4 D(3) G6 G8 G6 0 G8 4 0 其中G8= G5∪G7 最短距离法树形图 二、最长距离法 类与类之间的距离定义为两类最远样品间的距离,即 最长距离法: DKL=d15 最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。 递推公式: GM 对采用最长距离法,其树形图如下图所示,它与上图有相似的形状,但并类的距离要比上图大一些,仍分成两类为宜。 最长距离法树形图 特别注意:聚类时,仍然是优先选择距离矩阵中最小的元素进行类的合并,唯一不同的是,两个类之间的距离计算公式不同(两个类中最远的样品的距离代表这两个类的距离) 异常值的影响 最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。 三、中间距离法 类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离,称为中间距离法(median method)。 设某一步将GK和GL合并为GM,对于任一类GJ,考虑由DKJ、DLJ和DKL为边长组成的三角形(如下图所示),取DKL边的中线作为DMJ。DMJ的计算公式为 四、类平均法 类平均法(average linkage method)有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义GK和GL之间的距离为 其中nK和nL分别为类GK和GL的样品个数,dij为GK中的样品i与GL中的样品j之间的距离,如图所示。容易得到它的一个递推公式: 类平均法:DKL=(d13+d14+d15+d23+d24+d25)/ 6 另一种定义方法是定义类与类之间的平方距离为样品对之间平方距离的平均值,即 它的递推公式为 类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。 对上例采用(使用平方距离的)类平均法进行聚类。一开始将D(0)的每个元素都平方,并记作 G1 G2 G3 G4 G5 G1 0 G2 1 0 G3 25 16 0 G4 49 36 4 0 G5 100 81 25 9 0 G6 G3 G4 G5 G6 0 G3 20.5 0 G4 42.5 4 0 G5 90.5 25 9 0 G6 G7 G5 G6 0 G7 31.5 0 G5 90.5 17 0 G6 G8 G6 0 G8 51.17 0 类平均法树形图 五、重心法 类与类之间的距离定义为它们的重心(均值)之间的欧氏距离。设GK和GL的重心分别为 ,则GK与GL之间的平方距离为 这种系统聚类法称为重心法(centroid hierarchical method),如图。它的递推公式为 重心法: 与其他系统聚类法相比,重心法在处理异常值方面更稳健,

文档评论(0)

amengye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档