统计学在分子进化领域的应用.docVIP

下载本文档

2
0
约2.88千字
约 3页
2017-08-20 发布于重庆
举报
版权申诉

统计学在分子进化领域的应用.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计学在分子进化领域的应用.doc

统计学在分子进化领域的应用生命科学学院万俊男分子进化是一门在进几十年才快速发展起来的生物学领域。产生这样的迅猛发展，得力于PCR、DNA测序等生化技术的发展，除此之外的另一个重要原因就是数据分析的统计方法以及计算机技术的发展。分子进化研究不同于生物学其他领域的一点在于，一项系统的研究往往需要海量的数据作支持，如何从庞大的蛋白质或DNA序列中获取想要的生物学信息，这就需要统计与数据分析来为分子进化的研究打开一扇大门。我就从一篇我看过的文献来谈谈我对统计学在分子进化领域的应用的看法。 Ziheng Yang and Rasmus Nielsen. 200. Codon-Substitution Models for Detecting Molecular Adaptation at Individual Sites Along Speci?c Lineages. Molecular Biology and Evolution. 19:908–917. 在分子进化中，非同义替代与同义替代的比（ω = dN / dS ）可以反映DNA是否受到达尔文正选择。如果有ω1，则可以认为该DNA的变异受到明显的正选择。但由于正选择往往只发生在几个特定的位点，正选择的作用会被其他位点的随机替换掩盖，一般都很难得到ω1的结果。这篇文章综合了以往用来分析正选择作用的分支特异模型（Branch-speci?c models）和位点特异模型（Site-speci?c models）的优缺点，建立了一种新的分支-位点模型（Branch-site models）。之后通过三个具体的例子，比较了三种模型的分析结果。在新的模型中，被考察的进化支被定义为前景支（the ‘‘foreground’’ branches），而进化树中其他的支被定义为背景支（the ‘‘background’’ branches）。新模型就是希望通过扣除背景支的影响，单独考察我们所感兴趣的进化支受正选择的情况。于是，不同位点的受选择情况就被划分为了四种（见Table 1）：Class 0代表前景支与背景支中都高度保守的位点（ω0=0或ω01），Class 1代表前景支与背景支中都处于中性或受到弱选择的位点（ω1=1或ω1略小于1），Class 2和Class 3则分表表示背景支为ω0或ω1，而前景支受到正选择的位点（ω21）。其中，Class 2和Class 3在整个DNA序列中的比例，可以由Class 0和Class 1的比例估计。在此基础上，就可以对得到的若干序列进行统计分析。由某一位点替代情况的观测数据集对应的条件概率，可以推断出该位点的非条件概率，并由此得到整个DNA序列的对数似然估计值l，这个值是之后对统计模型进行比较以及检验ω与1的关系的重要参数（2Δl服从分布，用来检验差异的显著性）。而之后就可以用贝叶斯公式计算某一位点情况的后验概率，以考察前景支那些位点是上面提到的Class 2和Class 3的情况，以确定具体受到正选择的位点。以上就是新的分支-位点模型的基本思想。之后，作者选取了灵长类中的溶菌酶基因，灵长类中的肿瘤抑制基因BRCA1以及被子植物中的植物色素基因家族来比较三种模型的效率。在比较模型间的是否有明显差别时，计算出两模型的2Δl，然后计算分布的尾区概率P，看某种模型是否明显优于另一种。以Table 2（最后一排的最后一个数据应该为=3.383）中的M0的one-ratio模型与分支模型的two-ratios模型间的比较为例（H0为两模型无差异），计算得2Δl =2×2.13=4.26，查分布表(df=1)可得P=0.0390.05，拒绝H0，因此可以下结论，认为two-ratios模型显著优于one-ratio模型。而在计算的ω1后，也不能直接下结论认为有正选择作用，而需要检验该ω是否显著大于1。用到的方法就是再建立一个ω固定为1的模型，比较我们感兴趣的模型与假设的模型是否有显著差异，与上面的检验方法相同，还是对2Δl进行检验。以Table 2中的two-ratios模型得到的=3.383为例，计算得2Δl =2×1.33=2.66，P=0.100.05（df=1），接受H0，认为与1无显著差异，无法认定有正选择作用的存在。可见，即使得到了ω1，也无法直接判断有正选择，而应该进行进一步的统计检验。运用以上的方法，作者比较了三个例子中，三种模型的效率。结果显示，新的分支-位点模型，能够很好的清除背景的干扰，发现正选择的存在；并可以进一步通过计算相应位点的后验概率，确定正选择的作用位点。尤其是仅有极少的位点受到强的正选择时，其它两种模型都无法检测出正选择的效应，而分支-位点模型则可以很清晰的反映出那些位点受到了强的正选择作用