生物信息学 概论第五章基于特征的系统发生分析教学精品.pptVIP

生物信息学 概论第五章基于特征的系统发生分析教学精品.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章: 基于特征的系统发生分析 生命科学与技术学院 阎 爱 侠; ;5.1 简约法;4个物种三种可能的无根树;;序列;序列;序列;序列;序列;信息位点的共同特征: 如果一个位点是信息位点,那么它(1)至少有两种不同的核苷酸,并且(2)这些核苷酸至少出现两次。 ;5.1.2 无权简约法;5条或更多序列数据集的计算复杂得多。原因在于: ⑴ 随序列数增加,无根树数目也增加; ⑵ 每个信息位点可能有多棵树,整个数据集的最大简约树不一定是含最多信息位点的树; ⑶ 每棵树的核苷酸替换数目的计算更加困难。 n个物种可能得到无根系统发生树 (Nu) 数目: Nu=(2n-5)!/2n-3(n-3)! ;下图是描述5条不同序列之间关系的15棵可能无根树中的3棵。这3棵无根树有相同的简约度,它们的最小替换数都是2。由简约规则,推断出的祖先的候选核苷酸分别列在每个内部节点的旁边。;上述方法只适用于信息位点,不适用于非信息位点。 非信息位点的最小替换数:外部节点上不同核苷酸数目减去1 (与树的拓扑结构无关) 例如: 5条序列的比对中,有一个位置上的核苷酸是 G、G、A、G和T,则最小替换数就是 3-1=2 。 非信息位点对所有可能的树的贡献都是等价的,在简约分析中往往被完全排除。 树的长度(length):当一棵树在信息位点和非信息位点的替换数的总和是一个确定的数值时,这个数值就是指树的长度。;5.1.3 加权简约法;我们无法得到一组适用于所有数据集的权值,原因有三: (1)一些序列比其他序列更容易插入和删除; (2)即使是同源基因,对功能的重要性也因不同的基因、 不同的物种而有所差别; (3)不同的基因和物种有不同的替换偏好。 因此,最佳的权值通常来自对实验数据集的分析,可获得的最佳实验数据集是实际分析过的数据集。 例如:假如转换出现频率为颠换的3倍,那么对同一序列集的简约分析就可以给所有的转换替换赋权值 1,给所有的颠换替换赋权值 0.33。;5.2 推断出的祖先序列;哺乳动物;5.3 快速搜索策略;5.3.1 分支约束法;这个方法的原理是: 由数据子集得到的任何一棵树,如果它的替换数大于L,??么当剩下的序列加入后,总的分支长度必定变得更大,那么原先的长度为L的树为最简约树。 如果在分析过程中,如果发现比初始建立的上限为L的树替换数更少的树,那么L的值将随之修正,这样余下的数据集的分析将更为有效。;分支约束法搜索最简约树的过程;B;分支约束法快速搜索策略的优缺点;5.3.2 启发式搜索;图5.5 分支交换;大量序列比对的可能的无根树的数目是一个天文数字,这种比对深度对计算造成了很大困难,把多个序列比对分成几个较少序列的比对可以较好的解决这一问题。 例如: ;5.4 一致树;严格一致树 (strict consensus tree):只要有一棵简约树与其他不同,对所有不一致的分支点都进行相同的处理。 过半截定一致 (50% majority-rule consensus) :只要有至少一半的树符合条件,这个内部节点在一致树中就可以表示成二叉节点,而少于一半的树符合条件的内部节点表示为多叉节点。 不一致性阈值是一个参数,可以取0 ~100%的任意值。 ;由一个数据集推断出的3棵树;5.5 树的置信度;5.5.1 自举检验 (bootstrap test) 自举检验是一种重采样技术,能粗略地量化这些置信度水平。 自举检验的基本方法是: (1)从原数据集中抽取(同时替换)部分数据组成新的数据集。 (2)用这个新的数据集 推断 系统发生树。 重复上述过程,产生成百上千的重采样数据集,并同时生成对应的自举树,进而检验自举树对最终系统发生树各个分支的支持率。 在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。产生相同分组的自举树的数目常常标注在系统发生树相应节点的旁边,表示树中每个部分的相对置信度。 ;系统发生树的自举检验;5.5.2 参数检验 是否一棵有 10,000 个替换的树比另一棵有10,001个替换的树更有可能描述序列间真实进化关系? 比起先前提出的另一棵描述物种间进化关系的树,最简约树是真实树的概率会大多少? ;H. Kishino 和 M. Hasegawa 假设比对中的各个信息位点彼此独立而且等价,并用两棵树的最小替换数之差 D作为检验统计量。分别考虑每一个信息位点,按下式计算反映 D 变化程度的 V 值: 其中 n 是信息位点的数目,Di 为两棵树中各个信息位点替换数的差值。n–1个自由度的 t 检验可以用来检验空假设,即两棵树的替换数相等的情况:;5.6 各种系统发生分析方法的比较;5.7 分子系统发生分析

文档评论(0)

youngyu0318 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档