- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因分化或突变也可以发生在同一个物种内。 * 当待分类单元数目很大,或生物序列很长时,流程中的第三步通常要用特定的数学方法来进行分析。注意:即使最优的多序列比对是唯一的,有些方法最终也会产生不止一棵进化树。 * 7 构建进化树 树是图论中的一个概念,它是描述生物物种及基因之间各种进化关系的一种图形化手段。 进化分析都是根据现有的各种证据去推测真实的 进化历史,进化树构建的更准确说法是“进化树推断/估计”。 推断并构建进化树是进化分析中最重要的研究内容之一。 背景知识:分子进化与物种形成的关系 基因分化事件发生在物种形成前后。 区别于基于化石等生物形态的进化分析的—分子进化。 直系同源(Orthologs)和旁系同源(Paralogs) 1,伴随物种分化而产生基因分歧,但拥有共同功能,这些基因之间为直系同源。 2,伴随基因复制在同一物种内产生基因分歧,产生功能上改变,这些基因之间为旁系同源。 7.1 树与二叉树 根节点与两个分支 相连接,为二叉树。 系统发育树(Phylogenetic tree):指一种二叉树结构。 由一系列节点(node)和分支(branch)组成。每个节点 代表一个分类单位(物种或序列),而节点之间的连接 线代表物种之间的进化关系。 7.2 系统发育树 Phylogenetic tree 有根树和无根树 注:无根树不包含进化方向的信息,仅展示了所有 待分类单元之间的相对关联性。 复杂的无根树 7.2.1 系统发育树的解析 进化树中,分支的长度具有什么意义? (operational taxonomic units) (分类/分枝) (分支) (节点) 将分支长度带有时间信息的称为标度树;否则称为拓扑树。 7.2.2 系统发育树的不同形状 7.2.3 系统发育树的拓扑结构 树的分叉模式称为树的拓扑结构。 1,含有n(n=3)个待分类单元的二叉无根树,内部节点数目为 n-2,分支总数为2n-3,不同拓扑结构的数目为(2n-5)!/2n-3(n-3)! 2,含有n(n=3)个待分类单元的二叉有根树,内部节点数目为 n-1,分支总数为2n-3,不同拓扑结构的数目为(2n-3)!/2n-2(n-2)! 1 2 3 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 2 1 3 3 1 2 7.2.4 系统发育树的形成 7.3 系统发育树的构建 1,序列的选择 优先选择“进化信号”比较强的序列(亲缘性/同源性比较高的序列)。序列差异过大,进化树的可靠程度降低。 2,多序列比对 有时为了后续分析的简化,通常在序列比对后要去除带 空位的比对列。 3,进化树的推导 1,简约类方法;2,统计类方法;3,距离类方法。 4,进化树评估 首先获得拓扑结构;确定分支长度;根据需要,定根。 7.3.1 最大简约法(Maximum Parsimony) 简约法的基本假设:生物序列总是采用某种“最节约成本”、“最经济”的方法来完成进化过程(转换次数少)。 最少 最节约 G G 简约法的算法思想:1,按照分类单元,罗列所有的拓扑结构;2,在拓扑结构中寻找最“简约”的序列指派方式。 案例: 假定已知三条DNA序列如下: S1:CGA S2:CTG S3:CTA 利用MP法可得到3个简约程度相同的拓扑结构 CTA CTA S1:CGA S2:CTG S3:CTA 1 1 CTA CTA S1:CGA S3:CTA S2:CTG 1 1 CTA CTA S2:CTG S3:CTA S1:CGA 1 1 MP法可以产生不同的树,但成本相同 简约法的优缺点: 优点:MP法中没有直接引用分子进化模型,从而避免任何模型所产生的误导性结论,这是MP法最大的优势。 缺点: 1, MP主要用于推测进化树最可能的拓扑结构,而不会对分支长度进行估计。 2, 对于序列差异较大,序列较长的分类单元,由于拓扑结构庞大,序列指派方式复杂,MP法的时间开销将是巨大的。 7.3.2 最大似然法(Maximum likelihood) 似然法完全是基于统计的方法:在特定的模型下,统计每个序列位点替换的概率,概率大的事件在一次进化事件中最容易发生(概率大)。 似然度的计算完全依赖于在特定模型下的观测概率 案例: 似然法的优缺点: 优点:ML法充分考虑了不同进化模型下的序列突变的概率问题,因此,推导出的进化树的可靠度比较高。 缺点: ML法需要计算所有的可能拓扑结构下的概率值,从中得到概率最大的拓扑结构,因此该算法时间开销较大,同时生成的树不一定是唯一的。 7.3.3 距离法(Distance Method) 距离法:根据距离模型,推导分类单位之间的进化距离,构建一个进化距离矩阵。 1,UPGMA 非加权算术
文档评论(0)