网站大量收购独家精品文档,联系QQ:2885784924

09生物统计学第七章.pptVIP

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
09生物统计学第七章

生物统计学 第七章 聚类分析;分类问题; 聚类分析(群分析) 是实用多元统计分析的一个新分支,正处于发展阶段。理论上尚未完善, 但应用十分广泛。 实质上是一种分类问题,目的是建立一种分类方法,将一批数据按照特 征的亲疏、相似程度进行分类。 定性、经验的分类的局限 分类较粗、数据量小、凭借经验 生物信息学中的聚类分析问题 根据DNA芯片获得的基因表达数据进行基因聚类(数据量庞大) 蛋白质相互作用网络的分类 根据不同物种的大分子序列进行相似性比较并构建系统发育树 ……;聚类分析;第一节 分类统计量——距离、相似系数;;样本均值:;(1) 中心化变换;(2) 标准化变换;(3) 极差标准化变换;(4) 极差正规化变换(规格化变换);(5) 对数变换;距离的定义 用dij表示样品X(i)与X(j)之间的距离,有 dij ?0; 且dij =0? X(i)=X(j); dij = dji; 三角不等式:dij ? dik + dkj;(1) Minkowski距离;当q=2时,得到二阶Minkowski度量:;(2) Lance距离;(3) Mahalanobis距离;(4) 斜交空间距离;;(1) 夹角余弦——相似系数;(2) 相关系数;第二节 聚类分析方法之一: 谱系聚类法(hierarchical cluster analysis);;; 对数据进行变换; 定义样品间的距离(如欧氏距离)、类别之间的距离(如最短距离); 首先将t个样品各自视为一类:得到初始的分类G(1) (含有t类),计算t个样品两两之间的距离,它们等价于初始的类间距离,得到初始的距离矩阵D(1) ; 将距离最近的两类合并为一新类,得到新的分类G(2)(含有t-1类),并计算新类与其它类的类间距离,得到新的类间距离矩阵D(2) ,再按照最小距离准则并类,得到G(3)(含有t-2类)、D(3),… 。直到所有样品都并成一类 ; 画出谱系聚类图,决定分类的个数及各类的成员。;谱系聚类法示例;Step 1 首先5个物种各自构成1类,得到5类,则有: 初始分类G (1)={X(i)}(i=1, 2, 3, 4, 5) 初始类别数目m=5 初始类间距离矩阵D(1);;Step 3 由D(2)知,合并X(3)和X(4)为一新类C(3)={X(3), X(4)},有: 新的G (3)={ X(5) , C(4) , C(3)} 新的类别数目m=3 新的类间距离矩阵D(3);Step 4 由D(3)知,合并X(5)和C(3)为一新类C(2)={X(5), C(3)},有: 新的G (4)={C(4) , C(2)} 新的类别数目m=2 新的类间距离矩阵D(4);Step 5 由D(4)知,最后合并C(4)和C(2)为一新类C(1)={C(4), C(2)},有: 新的G (5)={C(4) , C(2)} 新的类别数目m=1 新的类间距离矩阵D(5);;Step 7 确定类别的数目以及各类的成员:; 影响聚类结果的主要因素 样品间距离的定义dij 类间距离的定义Dij ;(1) 最短距离;(2) 最长距离;(3) 类平均距离;(4) 几何中心距离;(1) 由临界值确定;(2) 由数据散点图直观确定;(4) 确定类别数目的基本原则;第三节 聚类分析方法之二: 动态聚类法;选取 聚类种子点 (Cluster seeds); 聚类种子点(Cluster seeds):准备形成类的中心,是一批有代表性的点。 聚类种子点选取的重要性:直接决定初始分类。 初始分类的重要性:影响最终分类结果。 ; 条件:对所分类问题有一定的了解。 根据经验,预先确定分类的数目、初始分类,并从每类中选择有代表性的一个点作为种子点。 ; 条件:对所分类问题有一定的了解 根据经验,预先将数据人为地分为k 类,计算每一类的几何中心,选取这些中心作为聚类种子点。 ;以d (d0)为半径,以某个样品X为球心,落在小球内的全部样品数就是样本X的密度。 计算所有样品点的密度,首先选取密度最大的样品点作为第一种子点。 在所有与第一种子点距离大于D (一般D=2d)的样品点中,选取密度最大的样品点作为第二种子点。 在所有与第一、第二种子点距离大于D的样品点中,选取密度最大的样品点作为第三种子点。 依次考察全部样品点,得到全部聚类种子点。 半径d 的选择要合理。; 首先,以所有样品的几何中心为第一种子点。 然后,依次考察每个样品点,若某一点与已有种子点距离均大于d 值,则选取该点为新的种子点。 ; 随机选取聚类种子点。 假设分为k 类,则用前k 个样品作为聚类种子点。 ;(1)人为分类 (2)最近距离归类 (3)动态调整种子点 (4)

文档评论(0)

shaoye348 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档