- 106
- 0
- 约9.45千字
- 约 61页
- 2017-02-21 发布于上海
- 举报
序列分析四一一分子进化系统发生分析
最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。 优点: 不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。 此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。 缺点: 在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的甚至错误的进化树推导结果。 最大似然法(ML)的创始人 ————杨子恒 2006年英国皇家科学院,大陆旅英学者中获此殊荣的第一人,现为伦敦大学学院统计遗传学教授。出生在甘肃定西地区的通渭县,1980年他考进甘肃农业大学,学的是畜牧专业,“误入”生物领域。后来在北京农业大学读研究生时,选择了与数学关系密切的统计遗传学。 1. 选择一个或多个已知与分析序列关系较远的序列作为外群; 2.外群可以辅助定位树根; 3.外群序列必须与剩余序列关系较近,但外群序列与其他序列间的差异必须比其他序列之间的差异更显著。 1. 从排列的多序列中随机有放回的抽取某一序列,构成新的排列序列; 2. 重复上面的过程,得到多组新的序列; 3. 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。 1. 分子进化的分析:基于氨基酸序列的分析早于DNA序列。 2. 优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较DNA更为简单; 3. p距离:p-distance; 4. 泊松校正,d距离; 5. Г距离; P-distance 令两条蛋白质序列之间的氨基酸差异数为nd,所有序列的氨基酸数目相同为n,则 泊松校正 1. 序列差异的百分比( p )与分歧时间 t 的关系:t 较短的时候,回复突变较少,两者大致成线性关系;当 t 较大时,回复突变增多,二者成非线性关系; 2. 令 r 为某一位点每年的氨基酸替代率,并假设所有位点的 r 都相同:基本假设; 3. 在时间 t 年之后,每个位点替代的平均数为:rt;给定一个位点,氨基酸替代数 k (k=0,1,2,3,…)的可能性遵循泊松分布,即 4. 因此,某一位点氨基酸不变的概率为 1. 祖先序列未知:不知道当前的序列从何演化而来。 2. 解决方案:对两条已经有 t 年分化的序列,一条序列无替代的概率为: ,两条序列则为: 3. 则发生突变的概率为p=1-q; 4. 泊松校正距离d=2rt 5. 因此, d=-ln(1-p),即泊松距离。 P-距离 vs. 泊松距离 Г距离 1. p-距离和泊松距离:氨基酸替代率在所有位点是相同的; 2. 实际情况:功能次要的位点比功能重要的位点替代率更高; 3.氨基酸替代率的实际观测与Г分布近似符合。 1. 基因组上存在着多种多样的DNA区域,例如蛋白质编码区,非编码区,内含子,侧翼区,重复片断以及插入序列等; 2. 考虑编码区的DNA序列的进化演变模型; 3. Jukes-Cantor法与Kimura两参数法 1. 对于两条长度为n的DNA序列,不同的碱基对为nd; 2. 核苷酸的改变p:转换P、颠换Q,则:p=P+Q 3. 当p较小时,如果核苷酸替代是随机发生的,通常转换比颠换出现频率高; Ka/Ks含义 1. Ka/Ks ~ 1: 中性进化; 2. Ka/Ks 1: 阴性选择,净化选择; 3. Ka/Ks 1: 阳性选择,适应性进化。 4. 多数基因为中性进化,约1%的基因受到阳性选择。 5. PAML, MEGA等工具:计算Ka/Ks及统计显著性 进化通径法:Nei-Gojobori 1. 首先需要考虑:潜在的同义(S)和非同义位点数(N)。 2. 基本假设:所有核苷酸的替代率相等; 3. 用 fi 表示某一个密码子第i位的核苷酸上发生同义替代的比例;(i=1,2,3); 4. 所有密码子潜在的同义和非同义替代的位点数定义如下: ,N=3-S; 潜在的同义和非同义位点数的估计 1. 例如,对于Phe, 密码子TTT, 第三位T变成C时为同义替代,变成A/G为非同义替代。因此: S=0+0+1/3 N=3-1/3=8/3 2. 终止密码子忽略不计。如Cys的TGT, S=0.5 Sd与Nd的计算 1. 当一对密码子仅存在一个差异时,可以立即判断是同义还是非同义,进化通径只有一种可能;例如对于GTT (Val)和GTA (Val), sd=1, nd=0;而对于ATT(I)和ATG(M),sd=0, n
原创力文档

文档评论(0)