生物信息处理——总复习分析.ppt

  1. 1、本文档共132页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 这个方法的原理是: 由数据子集得到的任何一棵树,如果它的替换数大于L,那么当剩下的序列加入后,总的分支长度必定变得更大,那么原先的长度为L的树为最简约树。 换而言之,最简约树不可能是包含上述特定分支模式的树 如果在分析过程中,如果发现比初始建立的上限为L的树替换数更少的树,那么L的值将随之修正,这样余下的数据集的分析将更为有效。 对大于20条序列的多序列进行比对必须采用近似的更为有效的算法。它并不一定总能找到最简约的树。 启发式 heuristic 方法的假设:各个可能的树并不总是相互独立的。 最简约数和次简约数拓扑结构相似,因此首先构建一棵初始树,从它开始寻找更短的树。 因此启发式搜索通过子树分支交换,把它们嫁接到该步分析中找到的最好的那棵树的其他位置上,从而产生一棵拓扑结构和初始树相似的树。 同分支约束法一样,如果初始树很接近于最简约树(例如UPGMA产生的树),启发式搜索会更有效。 大量序列比对的可能的无根树的数目是一个天文数字,这种比对深度对计算造成了很大困难,把多个序列比对分成几个较少序列的比对可以较好的解决这一问题。 例如: 同源哺乳 动物序列 灵长类序列 啮齿类序列 部分偶蹄、兔类、 灵长、啮齿 探知树中灵长类 所在树干的末段 之间的关系 确定树中啮齿类 所在树干的末段 之间的关系 检验更早的分支、 更具体的灵长类 树干和啮齿类树干的 最后位置 简约法产生多棵等价的简约数是很常见的。 此时最简单的方法是用一个一致树 consensus tree 作为代表来概括所有等价的简约树。方法如下: (1)在所有树中都一致的分支点在一致树中表示成二叉分支点。 (2)不一致的分支点蜕变成连接三个或更多后代分支的内部节点。 严格一致树 strict consensus tree :只要有一棵简约树与其他不同,对所有不一致的分支点都进行相同的处理。 过半截定一致 50% majority-rule consensus :只要有至少一半的树符合条件,这个内部节点在一致树中就可以表示成二叉节点,而少于一半的树符合条件的内部节点表示为多叉节点。 不一致性阈值是一个参数,可以取0 ~100%的任意值。 由一个数据集推断出的3棵树 7 7 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 7 1 2 3 4 5 6 7 过半截定一致原则 7 严格一致原则 1 2 3 4 5 6 所有的系统发生树都是关于组成数据集的序列的进化历史的假设。 系统发生树的可靠性? 问题: (1)整棵树和它的组成部分(分支)的置信度是多少? (2)这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少? 解决方法: 解决问题(1)——自举检验 解决问题(2)——参数检验 自举检验 bootstrap test 自举检验是一种重采样技术,能粗略地量化这些置信度水平。 自举检验的基本方法是: (1)从原数据集中抽取(同时替换)部分数据组成新的数据集。 (2)用这个新的数据集 推断 系统发生树。 重复上述过程,产生成百上千的重采样数据集,并同时生成对应的自举树,进而检验自举树对最终系统发生树各个分支的支持率。 在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。产生相同分组的自举树的数目常常标注在系统发生树相应节点的旁边,表示树中每个部分的相对置信度。 5.5.2 参数检验 是否一棵有 10,000 个替换的树比另一棵有10,001个替换的树更有可能描述序列间真实进化关系? 比起先前提出的另一棵描述物种间进化关系的树,最简约树是真实树的概率会大多少? H. Kishino 和 M. Hasegawa 假设比对中的各个信息位点彼此独立而且等价,并用两棵树的最小替换数之差 D作为检验统计量。分别考虑每一个信息位点,按下式计算反映 D 变化程度的 V 值: 均值 方差 无论是基于距离的系统发生树重建方法,还是基于特征的系统发生树重建方法,都不能保证一定能够得到一棵描述比对序列进化历史的真实的树。 一般的,对于某个数据集,如果用一种方法能推断出正确的系统发生关系,那么用其他流行的方法也能得到好的结果。但是,如果模拟数据集中序列变化很大,或不同的分支变化速率不同,则没有一种方法十分可靠。 总规则:如果用截然不同的距离矩阵法和简约法分析一个数据集能够产生相似的系统发生树,则这棵树相当可靠。 真核生物 真细菌 古细菌 广域古生界 嗜泉古生界 内阿米巴虫 粘液菌 动物 真菌 植物 纤毛虫 鞭毛虫 毛滴虫 双滴虫 小孢子虫 绿色无硫细菌 革兰氏阳性细菌

文档评论(0)

琼瑶文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档