分子生物学中心法则.docxVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分子生物学中心法则: DNA ? RNA ? 蛋白质 ? 细胞表性 基因组中心法则: 基因组 ? 转录组 ? 蛋白质组 ? 细胞表性 生物信息学是20世纪分子生物学和计算机科学交差结合产生的新的学科。这个新的学科的焦点是使用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部脱氧核糖核酸。生物信息学工具包括的计算机程序,可以用来帮助揭示与大分子的结构和功能、生化途径、疾病发生以及进化相关的生物学问题所内涵的基本机制。 如果两条序列有一个共同的进化祖先,那么他们是同源的。同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量。两个序列即使没有统计上显著的一致性,他们也可能是同源的。同源性特征可分为直系同源(orthologous)和旁系同源(paralogous)。直系同源序列是不同物种内的同源序列,他们来自于物种形成时的共同祖先基因。直系同源基因被认为有相似的生物学功能。旁系同源基因是通过类似基因复制的机制产生的同源序列。 可接受点突变PAM(accepted point mutation)为在蛋白质中被自然选择接受的耽搁氨基酸替换。每种氨基酸在进化过程中发生突变的次数除以该氨基酸出现的总次数。最常发生的替换是谷氨酸对天冬氨酸、丝氨酸对苏氨酸和异亮氨酸对缬氨酸。 突变概率矩阵M(mutation probability matrix)中元素Mij 表示在一个给定的进化时期内,氨基酸J替换成氨基酸I的概率。进化时期为一个PAM(表示两个蛋白1%氨基酸发生变化的时间)。当PAM=0时,矩阵讲成为单位矩阵,表示没有氨基酸发生变化。当PAM相当大时,每行的所有值都接近于一个数值,这个数值就是氨基酸的出现频率。 块替换矩阵(block substitution matrix)BLOCSUM62矩阵是大多数BLAST算法的缺省矩阵。PAM矩阵是基于近相关蛋白家族数据的。并且假设高度相关蛋白的取代概率可以外推到远相关蛋白的概率。对比之下,BLOSUM矩阵是基于实际观测到的远相关戴白比对。 双序列比对算法分为全局双序列和局部双序列比对 水平序列间隙为一垂直线,垂直序列的间隙由一水平线表示。 DNA和蛋白质序列的双序列比对是生物信息学的基本操作之一。双序列比对对允许人们确定任意两序列之间的相关系,由其确定的相关程度可以帮助人们考虑它们是否有同源性。 多序列比对显示中:星号显示的是序列上100%的保守区域,冒号显示的是保守替换,点显示的是非保守替换。 多序列比对的典型应用: 如果所研究的蛋白质或者基因与另一组蛋白质有联系,那么这些蛋白质可以提供可能的功能、结构、进化方面的信息。 大多数的蛋白质家族中有远源的成员。与双序列比对相比,多序列比对能更敏感地发现同源关系。 当一个物种的基因组被完成测序后,数据分析的一个主要部分是定义所有基因产物所归属的蛋白家族。数据库搜索进行高效的多重比对,将一个新蛋白(或者基因)与其它所有家族的蛋白质进行比较。 在目前发展众多的多序列比对方法中,最常用的是来自Da-Fei Feng和Russell Doolittle的渐进比对。这种比对方法需要先对所有的序列计算两两比对的分值。然后从关系最近的一对序列开始,逐步地加入其它序列。 很多渐进序列比对算法使用距离矩阵,而不是相似度矩阵来描述蛋白质之间的关系。计算距离的目的在于产生辅助导向树,进而构建比对。 相似性分值到距离分值的计算: D=-lnSeff Seff=(Sreal(I,j) – Srand(I,j)/(Siden(I,j) –Srand(I,j))*100 其中Sreal(I,j)是观测到的两个序列的相似性分值。Siden(I,j) 指两个序列分别与自身比较后得分的平均值。Srand(I,j) 是讲序列打乱后,随即抽取得到的平均比对得分。Seff 是一个归一化的分值,如果序列i与j没有相似性,那么Seff =0.距离就是无穷。如果序列一致,则Seff =1,距离就是0. 第一步:利用双序列比对方法对所有的序列进行两两比对。产生原始的相似性分值。 第二步:利用相似度矩阵(或距离矩阵)产生辅助向导树,有两种基于距离生成向导树的方法:算数平均不加权组队法(unweighted pair group method of arithmetic averages,UPGMA)和连接近邻方法(neighbor-joining method ,NJ)。树结构的两大特征是它的分支顺序和分支长度。因此向导树反映了所有蛋白序列的进化关系。 第三步:根据向导树中的位置关系建立多重比对。具体的方法是:先选择最接近的一个两辆比对,接着在此基础上加入下一个最近序列形成的三重比对或者加入下一个最近的两两比对。重复此过程直到用完所有的序列

文档评论(0)

ktj823 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档