第七章分子系统发育的基本知识 进化树.ppt

信息位点的共同特征: 如果一个位点是信息位点,那么它(1)至少有两种不同的核苷酸,并且(2)这些核苷酸至少出现两次。 5.1.2 无权简约法 最简约树:考虑每个信息位点所有可能的树,分别给每棵树进行打分,统计每个位点的核苷酸最小替换数目。所有简约信息位点最小核苷酸替换数的总和最小的树记为最简约树。 4条序列比对的例子可能是最简单的例子: 在只包含4条序列的分析中,每个信息位点只能支持 3 棵可能的树中的1棵,含有最多信息位点的树就是最简约树。 5条或更多序列数据集的计算复杂得多。原因在于: ⑴ 随序列数增加,无根树数目也增加; ⑵ 每个信息位点可能有多棵树,整个数据集的最大简约树不一定是含最多信息位点的树; ⑶ 每棵树的核苷酸替换数目的计算更加困难。 n个物种可能得到无根系统发生树 (Nu) 数目: Nu=(2n-5)!/2n-3(n-3)! 下图是描述5条不同序列之间关系的15棵可能无根树中的3棵。这3棵无根树有相同的简约度,它们的最小替换数都是2。由简约规则,推断出的祖先的候选核苷酸分别列在每个内部节点的旁边。 T 5 1 2 3 4 6 7 8 9 G G A A G A (GA) (GAT) (a) A 1 2 3 4 5 6 7 8 9 G G T A G A (GT) (GTA) (b) 1 2 3 4 5 6 7 8 9 G T G A A G G A (GA) ( c ) 计算祖先核苷酸位置的算法: 如果一个内部节点的两个直接后代节点上的核苷酸的交集非空,那么这个节点的最可能的候选核苷酸集就是这个交集; 否则为它的两个后代节点上的核苷酸集的并集。 构建系统进化树的方法 ——距离法 简单的距离矩阵 由进化距离构建进化树的方法有很多,常见有: (1) Fitch-Margoliash Method (FM法): 对短支长非常有效 (2) Neighbor-Joining Method (NJ法/邻接法):求最短支长,最通用的距离方法 (3) Neighbors Relaton Method(邻居关系法) (4) Unweighted Pair Group Method (UPGMA法/非加权组平均法) 构建系统进化树的方法 ——距离法 DE距离=d+e (1) D到ABC间的平均距离=d+m (2) E到ABC间的平均距离=e+m (3) (2)-(3)+(1) d=4,e=6 构建系统进化树的方法 ——FM法 C最接近DE! 分成三组:C, DE, 以及AB 构建系统进化树的方法 ——FM法 c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (2) (e+d)/2+(a+b)/2+f+g=41 (2) (1)+(2)-(3) 得:c=9 构建系统进化树的方法 ——FM法 c+g+(e+d)/2=19 (e+d)/2=5,c=9,则g=5 构建系统进化树的方法 ——FM法 由:(a+b)/2+f+g+(d+e)/2=41 得:f=20 由:a+f+c=39 得:a=10,则b=12 构建系统进化树的方法 ——FM法 1. 最大似然法(maximum likelihood, ML): 最早应用于对基因频率数据的分析上 2. 选取一个特定的替代模型来分析给定的一组序列数据,在每组序列比对中考虑每个核苷酸替换的概率。 例如,转换出现的概率大约是颠换的三倍。在一个三条序列的比对中,如果发现其中有一列为一个C,一个 T和一个 G,我们就认为,C和 T所在的序列之间的关系很有可能更接近。 3.计算表示序列关系的每棵可能的树的概率。 概率总和最大的那棵树最有可能是反映真实情况的系统发生树。 4. 缺点:费时,每个步骤都要考虑内部节点的所有可能性 5. 改进:启发式算法 构建系统进化树的方法 ——最大似然法(ML) 构建系统进化树的原则 1. 可靠的待分析数据 2. 准确的多序列比对 3. 选择合适的建树方法: A. 序列相似程度高,MP首先 B. 序列相似程度较低,ML首先 C. 序列相似程度太低,无意义 4. 一般采用两种及以上方法构建进化树,无显著区别可接受 构建系统进化树的原则 1. 选择一个或多个已知与分析序列关系较远的序列作为外围支 2. 外围支可以辅助定位树根 3. 外围支序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间

文档评论(0)

1亿VIP精品文档

相关文档