09生物统计学第七章.pptVIP

下载本文档

2
0
约4.02千字
约 79页
2017-04-27 发布于北京
举报
版权申诉

09生物统计学第七章.ppt

1、本文档共79页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

09生物统计学第七章

生物统计学第七章聚类分析;分类问题; 聚类分析（群分析）是实用多元统计分析的一个新分支，正处于发展阶段。理论上尚未完善，但应用十分广泛。实质上是一种分类问题，目的是建立一种分类方法，将一批数据按照特征的亲疏、相似程度进行分类。定性、经验的分类的局限分类较粗、数据量小、凭借经验生物信息学中的聚类分析问题根据DNA芯片获得的基因表达数据进行基因聚类（数据量庞大）蛋白质相互作用网络的分类根据不同物种的大分子序列进行相似性比较并构建系统发育树 ……;聚类分析;第一节分类统计量——距离、相似系数;;样本均值：;(1) 中心化变换;(2) 标准化变换;(3) 极差标准化变换;(4) 极差正规化变换（规格化变换）;(5) 对数变换;距离的定义用dij表示样品X(i)与X(j)之间的距离，有 dij ?0; 且dij =0? X(i)=X(j); dij = dji; 三角不等式：dij ? dik + dkj;(1) Minkowski距离;当q=2时，得到二阶Minkowski度量：;(2) Lance距离;(3) Mahalanobis距离;(4) 斜交空间距离;;(1) 夹角余弦——相似系数;(2) 相关系数;第二节聚类分析方法之一：谱系聚类法(hierarchical cluster analysis);;; 对数据进行变换；定义样品间的距离（如欧氏距离）、类别之间的距离（如最短距离）；首先将t个样品各自视为一类：得到初始的分类G(1) （含有t类），计算t个样品两两之间的距离，它们等价于初始的类间距离，得到初始的距离矩阵D(1) ；将距离最近的两类合并为一新类，得到新的分类G(2)（含有t-1类），并计算新类与其它类的类间距离，得到新的类间距离矩阵D(2) ，再按照最小距离准则并类，得到G(3)（含有t-2类）、D(3),… 。直到所有样品都并成一类；画出谱系聚类图，决定分类的个数及各类的成员。;谱系聚类法示例;Step 1 首先5个物种各自构成1类，得到5类，则有：初始分类G (1)={X(i)}(i=1, 2, 3, 4, 5) 初始类别数目m=5 初始类间距离矩阵D(1);;Step 3 由D(2)知，合并X(3)和X(4)为一新类C(3)={X(3), X(4)}，有：新的G (3)={ X(5) , C(4) , C(3)} 新的类别数目m=3 新的类间距离矩阵D(3);Step 4 由D(3)知，合并X(5)和C(3)为一新类C(2)={X(5), C(3)}，有：新的G (4)={C(4) , C(2)} 新的类别数目m=2 新的类间距离矩阵D(4);Step 5 由D(4)知，最后合并C(4)和C(2)为一新类C(1)={C(4), C(2)}，有：新的G (5)={C(4) , C(2)} 新的类别数目m=1 新的类间距离矩阵D(5);;Step 7 确定类别的数目以及各类的成员：; 影响聚类结果的主要因素样品间距离的定义dij 类间距离的定义Dij ;（1）最短距离;（2）最长距离;（3）类平均距离;（4）几何中心距离;(1) 由临界值确定;(2) 由数据散点图直观确定;(4) 确定类别数目的基本原则;第三节聚类分析方法之二：动态聚类法;选取聚类种子点 (Cluster seeds); 聚类种子点（Cluster seeds）：准备形成类的中心，是一批有代表性的点。聚类种子点选取的重要性：直接决定初始分类。初始分类的重要性：影响最终分类结果。 ; 条件：对所分类问题有一定的了解。根据经验，预先确定分类的数目、初始分类，并从每类中选择有代表性的一个点作为种子点。 ; 条件：对所分类问题有一定的了解根据经验，预先将数据人为地分为k 类，计算每一类的几何中心，选取这些中心作为聚类种子点。 ;以d (d0)为半径，以某个样品X为球心，落在小球内的全部样品数就是样本X的密度。计算所有样品点的密度，首先选取密度最大的样品点作为第一种子点。在所有与第一种子点距离大于D (一般D=2d)的样品点中，选取密度最大的样品点作为第二种子点。在所有与第一、第二种子点距离大于D的样品点中，选取密度最大的样品点作为第三种子点。依次考察全部样品点，得到全部聚类种子点。半径d 的选择要合理。; 首先，以所有样品的几何中心为第一种子点。然后，依次考察每个样品点，若某一点与已有种子点距离均大于d 值，则选取该点为新的种子点。 ; 随机选取聚类种子点。假设分为k 类，则用前k 个样品作为聚类种子点。 ;（1）人为分类（2）最近距离归类（3）动态调整种子点（4）