- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分子进化分析-哈医大《生物信息学基础》课件.ppt
第五章 分子进化分析 MOLECULAR EVOLUTION ANALYSIS 第一节 引言 分子进化开始于20世纪60年代,近20年来由于分子遗传学资料的迅速积累,成为计算生物学和和生物信息学等新兴学科的重要组成部分。 尤其人类基因组测序后,推动了分子进化的进一步发展,序列保守性,基因表达和网络的进化等研究内容不断的出现在最新的研究中,充实了生物信息学的研究范围。 第二节 系统发生分析与重建 一、核苷酸置换模型及氨基酸置换模型 两个序列间的核苷酸差异 对于一种同源的核酸分子来说,它在亲缘关系越近的生物之间差异就越小,相反差异 就越大,即两同源分子分歧的时间与它们之间的序列差异成正比。 同一条祖先序列传衍的两条后裔序列,它们的核苷酸差异随时间而增加。一个简便的描述序列分歧大小的测度是两条后裔序列中不同核苷酸位点的比例。 以下,我们称此估计为核苷酸间的p距离 尽管总核苷酸替代能用公式计算,但我们常常也需要知道两个序列间(即序列和)不同核苷酸对的频率。在每一序列中,有4种不同核苷酸(A,T,C,G),故两条序列相应位点配对时可有16种不同类型的核苷酸对 如果4种核苷酸间的替代是随机发生的,当P很小时,Q约为P的2倍。实际上,通常转换比颠换出现更频繁。因此,P将大于Q/2。当序列间的分歧度低时,转换对颠换的比值(R),常称为转换/颠换比,能用下式估计: 核苷酸替代数的估计常常建立在以下假设基础上,即每个序列的核苷酸频率处于平衡态,且此频率不随时间而变化。当每个序列的核苷酸频率处于平衡时,我们期望表5-1中的、 以及 。因此,可用零假设去检验核苷酸频率是否处于平衡态。 2. 核苷酸替代数的估计 欲估计核苷酸替代数,必须应用核苷酸替代的数学模型。为此,许多学者提出了不同的替代模型,其中一些模型以替代率矩阵的形式列在表5-2中。 [例5.1] 人与猕猴的细胞色素b基因间的核苷酸替代数 动物线粒体DNA中的细胞色素b基因是高度保守的,因此常被用于研究亲缘关系较远的动物的进化关系。表5-3示出了人与猕猴的细胞色素b基因的10种不同类型核苷酸对的数目,并分别以密码子第1、2和3位点列出。 (二)氨基酸序列进化分析 氨基酸差异和不同氨基酸的比例 蛋白质或肽链的进化演变研究开始于两个或多个氨基酸序列的比较。图5-1显示了人、马、牛、袋鼠、蝾螈和鲤鱼的血红蛋白α链的氨基酸序列。图中,不同的氨基酸分别用不同的单字母代表。 在图5-1所给出的例子中,删除所有间隔后可比较的总氨基酸位点数为140。因此,仕此例中。值出现在表5-5对角线上部,可以很容易地计算出,列于对角线下部。 当所比较的物种亲缘关系很远时(如人和鲤鱼),值较大,而当亲缘关系较近的物种比较时(如人和马),值较小。这说明随着两个物种的分歧时间增大,氨基酸的替代数也将增大,但并不严格与分歧时间()成比例(图5-2)。 2. 泊松校正(PC)和 距离 p与t的变化呈现非线性关系的原因之一是当多个氨基酸替代出现在同一位点时,nd偏离实际氨基酸的替代数将会逐渐增加。更精确估计替代数的方法之一是运用泊松分布的概念。令r为一个特定位点每年的氨基酸替换率,并且为简便起见假设所有位点的r都相同,在时间t年后,每个位点氨基酸替代的平均数是rt。在一个给定位点氨基酸替代数k(k=0, 1, 2, 3, …)的发生频率遵循泊松分布,即, 若已知每个位点的氨基酸替代率()按分布的话,每个位点氨基酸替代的观察值将按负二项式分布。因此,Uzzell和Corbin研究建议,不同位点的替代率都按分布估计,即 f(r)的分布形状由a决定,a常称为形状参数或参数,而b则称为尺度因子。分布是非常柔性的,有多种多样形状,由形状参数a决定(图5-3)。 当r遵循分布时,就有可能估计出平均每个位点的氨基酸替代数。为此,让我们考虑在时间t时两个序列间某一位点上的氨基酸相同的概率,按公式(5.4)计算。然后,对所有位点的q求均值,为 [例5.2] 血红蛋白链的进化距离和氨基酸替代率的估计 表5-5示出了6种脊椎动物血红蛋白链成对比较的有差异氨基酸的数目的比例( )。我们用这些值来估计PC距离(d)和 距离( )。 2. 自展法的方差和协方差 可以有若干种方法来估计两个序列间氨基酸替代数。实际上,每个模型都
文档评论(0)