09生物统计学第7章.ppt

下载文档

2
0
约1.03万字
约 79页
2017-06-25 发布于北京
举报
版权申诉
保障服务

09生物统计学第7章.ppt

1、本文档共79页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

（3）调整聚类种子点：（ Dmin ＝2 ） d(X(1) , X(2) )=3 d(X(1) , X(3) )=4 d(X(2) , X(3) )=1 将X(2) , X(3)合并，用它们的几何中心4.5作为新的聚类种子点得到2个符合要求的聚类种子点：1.0 ， 4.5 （4）逐点考察其它样本点（ dmax ＝3 ） X(4) , X(5) ，得到3类： * 计算示例（5）对所有样本点重新归类、调整：收敛，迭代终止。 1.0 4.0 5.0 7.0 11.0 X(1) X(2) X(3) X(4) X(5) * 计算示例第四节聚类分析方法之三：试探法问题已知全部t个样品点为X(i) (i=1, 2, …, t) ，找出合理的聚类。定义欧氏距离为样本间的距离。类间距离为最短距离。 1 2 3 4 5 6 7 8 9 10 1 基于最邻近规则的试探聚类法 * (2) 选聚类中心Z(1) 任选一样品点为聚类中心Z(1) 一般选X(1)为Z(1) (1) 给定参数 dmax ——类内样品点距离的最大值（非负值） 1 2 3 4 5 6 7 8 9 10 dmax Z(1) * 1 基于最邻近规则的试探聚类法 (3) 逐点确定考察点X(2)，当d12 dmax时，选定X(2)为新的聚类中心Z(2) ，否则， X(2)属于Z(1)类；考察点X(3)，当d31 dmax且d32 dmax 时，选定X(3)为新的聚类中心Z(3) ，否则， X(3)属于距离最近的一类；逐点考察所有的t个样品点X(i) (i=1, 2, …, t) ，得到最后的聚类。 Z(2) Z(3) 1 2 3 4 5 6 7 8 9 10 dmax Z(1) * 基于最邻近规则的试探聚类法聚类的效果受下列因素影响：（1）第一个聚类中心的选取（2）样品点的排序（3）参数dmax的选取（4）样品点的分布特点：（1）聚类速度快，计算量是样品点数的线性关系；（2）简单方便。 * 基于最邻近规则的试探聚类法 1 2 3 4 5 6 7 8 9 10 问题已知全部t个样品点为X(i) (i=1, 2, …, t) ，找出合理的聚类。定义欧氏距离为样品间的距离。 2 最大最小距离算法 * (1) 确定最初的两个聚类中心：计算两两之间距离，以最远的两个样品点作为两个聚类中心。 d(X(1), X(6))最大，故选取X(1)和X(6)为两个聚类中心，记为Z(1)和Z(2)。 Z(1) Z(2) 1 2 3 4 5 6 7 8 9 10 * 最大最小距离算法 (2) 确定其它新的聚类中心：逐点计算所有样品点X(i) (i=1, 2, …, t) 与Z(1)和Z(2)之间的距离：d(X(i), Z(1))、 d(X(i), Z(2)) 若有 1 2 3 4 5 6 7 8 9 10 Z(1) Z(2) 则令X(i)为新添加的聚类中心点Z(3) 。否则，转到最后一步。选择X(7) 为Z(3) 。 Z(3) * 逐点计算所有样品点X(i) (i=1, 2, …, t) 与Z(1) 、Z(2)和Z(3)之间的距离：d(X(i), Z(1))、 d(X(i), Z(2))、 d(X(i), Z(3)) 若有 1 2 3 4 5 6 7 8 9 10 Z(1) Z(2) 则令X(i)为新添加的聚类中心点Z(4) 。否则，转到最后一步。 …… 得到所有的k个聚类中心点： Z(1) , Z(2),…,Z(k) Z(3) * 1 2 3 4 5 6 7 8 9 10 Z(1) Z(2) Z(3) (3) 按照聚类中心进行归类：将所有样品点X(i) (i=1, 2, …, t) 按照与Z(1) , Z(2),…,Z(k)的最近距离进行归类。 {X(1), X(3), X(4)} {X(2), X(6)} {X(5), X(7), X(8) , X(9) , X(10)} * 最大最小距离算法第五节小结 1 分类统计量——距离、相似系数（1）数据变换目的：使不同的量纲、不同取值范围的数据能放在一起比较中心化变换、标准化变换…… （2）样本点间的距离距离的定义（非负性、对称性、三角不等式）欧氏距离、绝对值距离（3）变量间的相似系数基于相似系数定义的距离夹角余弦、相关系数 * 2 谱系聚类法（1）评述输出结果是一棵谱