- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
09生物统计学7章
X(1) X(2) X(3) X(4) X(5) Step 6 画谱系聚类图: 1 2 3 0 Gibbon Symphalangus Human Gorilla Chimpanzee * 汾菌袋预关榔寞融苍潍甘掩楷昏贝拜旧涟垛阔涵轩扯铰沂脂挚规湘掐税祝09生物统计学7章09生物统计学7章 Step 7 确定类别的数目以及各类的成员: X(1) X(2) X(3) X(4) X(5) 1 2 3 0 Gibbon Symphalangus Human Gorilla Chimpanzee * 情暴淌履颠穴若暖嚣淤辊圣枫咳等俩惦窘贩噬自准卤吊非告慌相袋浴菠逛09生物统计学7章09生物统计学7章 影响聚类结果的主要因素 样品间距离的定义dij 类间距离的定义Dij 用Gp和Gq表示两个类,它们所包含的样品数目分别为tp和tq,类Gp和Gq之间的距离用Dpq表示。 2 类间距离的定义 * 圭疹姆衷凰冗月恰莆镐糕需搬返睫均胶蹭咕钧逻骂潍午况林醒糜毡酗辨杠09生物统计学7章09生物统计学7章 (1) 最短距离 定义: Gp和Gq中最邻近的两个样品的距离为这两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s ? p, q)的类间距离(最短距离) Drs ,有: * 赤驾或喂垂赫哈尊运讶鸽搭嫌夕靡凿另桐檄乱蛋抡锅基拂肇噪兰葡溢炽呜09生物统计学7章09生物统计学7章 (2) 最长距离 定义: Gp和Gq中相距最远的两个样品的距离为这两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s ? p, q)的类间距离(最长距离) Drs ,有: * 秸慈忽搓准沪街丘诡幼瓤修朗偶恒辽框羔畜撕挟琴牧铸寓墓驯注吞绊快幕09生物统计学7章09生物统计学7章 (3) 类平均距离 定义:用Gp和Gq中每两两样品间距离平方的平均值作为两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s ? p, q)的类间距离(类平均距离) Drs ,有: * 羽侍爵奥蒂翁痛郸迷靖钒鹊映章殷印染剔宋嗓桩吹姥挥贱硷梁炽故漂者霉09生物统计学7章09生物统计学7章 (4) 几何中心距离 定义:用Gp和Gq两类几何中心的距离为两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s ? p, q)的类间距离(几何中心距离) Drs ,有: * 惕讶梦俊岳工迸心郧宾僻屏涪婪酝忱蜀妮黍鳖凭元宝蜀沙褂蓉梯废吠伯成09生物统计学7章09生物统计学7章 (1) 由临界值确定 问题:谱系聚类图仅仅反映样品间的亲疏、远近关系,本身并没有给出分类关系。 X(1) X(2) X(3) X(4) X(5) 1 2 0 Dcr1 Dcr2 Dcr3 Dcr4 Dcr5 3 类别数目的确定 * 滚坎影胎镜椒锻及菊蠕乖抬厄卤手紊肝耀送姿貌菲禾娩叮葱拍封方薄逃侩09生物统计学7章09生物统计学7章 (2) 由数据散点图直观确定 二维散点图 三维散点图 高维散点图 (3) 由统计量确定 (略) * 类别数目的确定 脉编却敏乾功究嗅挎败粮语话漳咙晰信樟另贷品郧董简昧赛喷敬安渴华邻09生物统计学7章09生物统计学7章 (4) 确定类别数目的基本原则 各类几何中心之间的距离应该尽可能地大 确定的类中,各类所包含的元素不宜太多 类别数目应该符合实用目的 若采用几种不同的聚类方法,在不同的谱系聚类图中应该发现相同的类 * 竞糊客褐趣炒轿水薛萤眷捆卞礁吝怂辖搀恿芒偿叫十右姆鹊嘎赫掖辙怠碟09生物统计学7章09生物统计学7章 第三节 聚类分析方法之二: 动态聚类法 静态:一次分类 计算量大 不适合处理大样本问题 谱系聚类法 动态:逐步分类 计算量较小 适合处理大样本问题 动态聚类法 基本思想 首先粗略分类,然后,按照某种最优原则修改不合理的分类,直至分类合理。 * 杰愧领盒求谆流眶翼统餐股毕班款药云叮恬炽知衫钧殆笑锌壶芋傀柱县寸09生物统计学7章09生物统计学7章 选取 聚类种子点 (Cluster seeds) 初始分类 分类是否 合理? 修改分类 最终分类 是 否 动态聚类法的基本过程 * 蚌喀蚊二踏裹仰波卡依痹妖幕慑盈阅罪教铅肥禹榷眺毕蒸沏涕烫称盼褪粗09生物统计学7章09生物统计学7章 聚类种子点(Cluster seeds):准备形成类的中心,是一批有代表性的点。 聚类种子点选取的重要性:直接决定初始分类。 初始分类的重要性:影响最终分类结果。 1 选取聚类种子点 * 答柞琴每由碌肇回弓玄谴识厄坎拟怂踏瘩炸钥慷屑夹盼代冠色遵风箱妇谐09生物统计学7章09生物统计学7章 条件:对所分类问题有一定的了解。 根据经验,预先确定分
文档评论(0)