课内生物信息学第八章.docVIP

  • 5
  • 0
  • 约1.4万字
  • 约 13页
  • 2016-11-07 发布于江苏
  • 举报
第八章 多序列比对的实际应用 Andreas D.Baxevanis Genome Technology Branch National Human Genome Research Institude National Institutes of Health Bethesda.Maryland 在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。 由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。 渐进比对方法 CLUSTAL W CLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.       为了介绍基于UNIX平台的CLUSTAL W的使用,考虑一下从四种不同物种来源的UIA蛋白(人类,鼠,Xenopus laevis和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以接受的格式中的一种,然后在UNIX提示符下执行clustalw,用户必须执行命令才会看见主菜单: ********************************************************************* **********CLUSTAL W(1.60) Multiple Sequence Alignments****************** ********************************************************************* Sequence Input From Disc Multiple Alignments Profile / Structure Alignments Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 1 选择菜单中的选项1(Sequence Input From Disc)以输入要比对的序列,选择1后会出现序列输入菜单: Sequences should all be in 1 title. 6 formats accepted: NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF. Enter the name of the sequence file: UIA.seqs 系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文件

文档评论(0)

1亿VIP精品文档

相关文档