计算分子进化1.1-1.2.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算分子进化1.1-1.2

Computational Molecular Evolution 计算分子进化 杨子恒(Ziheng Yang)/著 第1部分 分子进化建模 第1章 核苷酸置换模型 第2章 氨基酸和密码子置换模型 2.5.1.4 rbcL基因应用实例 应用NG86方法来估计黄瓜和烟草中叶绿体蛋白1,5-二磷酸核 酮糖羧化酶/加氧酶大亚基(rbcL)基因间的 和 。图2.5列举了数 据的一些基本统计值。 第 1 章 核苷酸置换模型 1.1 引言 1.2 核苷酸置换和距离估计的马尔可夫模型 1.3 位点间可变的置换率 1.4最大似然估计 1.5马尔可夫链和广义模型下的距离估计 1.1引言 序列间的距离计算重要性 成对距离的计算是系统发育重建中距离矩阵方法的首要步骤,他采用聚类算法将距离矩阵转化为一个系统发育树; 用于距离计算的核苷酸置换马尔可夫过程模型构成了针对多重序列系统发育关系的似然分析与贝斯分析的基础。 两条序列间的距离被定义为平均每个位点核苷酸置换的期望数 简化的距离测度,即差异位点比例有时称为P距离 例 长度为100个核苷酸的两条序列间有10个位点差异,则p=10%=0.1 缺点:只适合关系非常近的序列,如p5%. 多重置换:一个可变位点可能是一次以上置换的结果,甚至一个不变位点也可能经历过回复(harbour)或平行(parallel)置换。如下图 核苷酸置换的马尔可夫模型 为了估计置换数目,需要建立一个概率模型来描述核苷酸间的变化。而时间连续的马尔可夫链常被用于此目的。 假定:核苷酸位点彼此独立进化, 任何特定位点上的置换都可以用一个马尔可夫链来描述,其中链状态为4个核苷酸 {T C A G}. 主要特性:无记忆性,给定一个当前状态,未来状态并不依赖于过去的状态。换言之,链上核苷酸跳到其他核苷酸的概率依赖于当前状态,但与当前状态从何而来无关。 对核苷酸间的置换率加以约束由此可以产生不同的核苷酸置换模型。 1.2核苷酸置换和距离估计的马尔科夫模型 JC69模型(Juckes andCantor,1969) 假定每个核苷酸变成其他任何一个核苷酸都是相同速率 λ。我们用 表示核苷酸i变成核苷酸j时的瞬时速率。其 中(i,j=T,C,A,G),则置换率矩阵为 为了描述马尔可夫链,对任意时间t0,我们需要一个相似的概率,这就是转换概率 即给定核苷酸i在时间t之后变成j的概率。矩阵 则称为转换概率矩阵。 我们将转换概率矩阵的两个数值不同的元素 和 标在图1.3上。 首先,P(t)在每行的总和为1; 其次,单位矩阵P(0)=Ι反映了无进化的情形(t=0); 第三,速率λ和时间t只以一个乘积的形式λt在转换概率中出现; 最后,当t →∞时,对所有的i和j,有 。 极限分布(limiting distribution) t →∞时,链在状态j的概率用 表示,分布 是一个极限分布(limiting distribution)。 若链的状态已经是极限分布,该链将继续保持该分布, 故极限分布也是一种“稳态分布”(steady-state distribution) 或“平稳分布”(stationary distribution). 马尔可夫链模型是通过公式 计算转换概率得到 的,该公式考虑了可能经历的进化过程中的所有可能的路 径,尤其是一个马尔可夫链的转换概率满足查普曼-科尔莫哥 洛夫定理(C-K方程) i ↓t1 k=(T,C,A,G) ↓t2 j 任意一个核苷酸i经过时间t1+t2变为核苷酸j的转换概率 是在一个中间时间点t1时所有可能状态k的总和。 估计距离 基于公式(1.1)得知,任意核苷酸的总置换率为3λ,若两条序列在时间t分开,则这两条序列间的距离为d=3λt。 假设两条序列间n个位点中有x个差异,则差异位点的比例为 。 基于公式(1.3)子裔序列不同于祖先序列的核苷酸概率为 将其换算为观测比例 ,我们得距离估计值 如果 ,则该距离公式不可用,两条随机序列应该有约75%的差异位点;如果 ,估计距离将为无穷 大。 1.2.2 K80模型 转换(transition):两个嘧啶(T?C)或者两个嘌呤(A?G)间的置换; 颠

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档