序列比对.doc

下载文档 降价啦

91
0
约2.78万字
约 24页
2016-08-07 发布于河南
举报
版权申诉
保障服务

序列比对.doc

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

序列比对

第二节序列比对引言序列比对是生物信息学的基本组成和重要基础。序列比对的基本思想是，基于生物学中序列决定结构，结构决定功能的普遍规律，将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串，检测序列之间的相似性，发现生物序列中的功能、结构和进化的信息。序列比对包括双序列比对(pair alignment)和多序列比对(multiple alignment)，主要有三个方面的应用。序列功能预测：了解未知序列和已知序列的相同和不同点，可以推测未知序列的结构和功能。分子进化分析：通过多序列比对，分析序列的相似性，判别序列之间的同源性，推测不同序列在结构、功能以及进化上的联系，进行分子进化上的研究。搜索序列数据库，找到已发布的相似性和同源性序列。值得注意的是，在分子生物学中，DNA或蛋白质的相似性是多方面的，可能是核酸或氨基酸序列的相似，可能是结构的相似，也可能是功能的相似。一级结构序列相似的分子在高级结构和功能上并不必然有相似性，反之，序列不相似的分子，可能折叠成相同的空间形状，并具有相同的功能。一般的序列比对主要是针对一级结构序列上的比较。序列和结构之间的比对方面也已经有不少研究，有兴趣的读者可以参考“文献“中的”序列和结构之间的比对“部分。双序列比对双序列比对的算法主要分为两类：整体比对(global alignment)从全长序列出发，考虑序列的整体相似性，即。Needleman-Wunsch算法是一种经典的基于动态规划的整体比对算法，其最佳比对中包括了全部的最短匹配序列。局部比对(Local alignment)考虑序列部分区域的相似性，即有时两个序列总体并不很相似，但某些局部片断相似性很高。局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的，这些部位的序列具有相当大的保守性，尽管在序列的其它部位可能有插入、删除或突变。此时，局部相似性比对往往比整体比对具有更高的灵敏度，其结果更具生物学意义。Smith-Waterman算法是在Needleman-Wunsch算法基础上发展而来的一种经典的局部比对算法。这二类算法均可以用于核酸和蛋白质序列。在给定空位罚值和替换矩阵情况下，它们总是能给出具有最高（优）比对值的比对。不同的算法，反映的序列的生物学特性的角度不同。加上参数选择的不同，导致比对结果的不同。用整体比对方法无法找到只有局部相似性的两个序列之间的关系，局部比对的结果也并不能反映序列整体上的关系。基于上述算法，已经开发了基于序列比对的数据库搜索软件包，如BLAST和FASTA等。GCG软件包中，BESFIT和GAP程序，EMBOSS的needle等可用于两个序列之间的联配。 Needleman-Wunsch算法从整体上分析两个序列的关系，即考虑序列总长的整体比较，用类似于使整体相似 (global similarity)最大化的方式，对序列进行比对。两个不等长度序列的比对分析必需考虑在一个序列中圈掉一些碱基或在另一序列作空位(gap)处理。Needleman 和Wunsch(1970)的法则为这些步骤提供了实例。这一算法是为氨基酸序列发展的，但也可以用于核苷酸序列。算法最初寻求的是使两条序列间的距离最小。尽管这类距离的元素是以一种特定的方式定义的，但该算法的良好特性在于它确定了最短距离。这是一个动态规划(dynamic programming)的方法。将两条比对的序列沿双向表的轴放置，两条序列的所有可能的比对方式都将在它们所形成的方形图中（见下图）。从任一碱基对，即表中的任一单元开始，比对可延三种可能的方式延伸：如果碱基不匹配，则每一序列加上一个碱基，并给其增加一个规定的距离权重；或在一个序列中增加一个碱基而在另一序列中增加一个空位或反之亦然。引入一个空位时也将增加一个规定的距离权重。因此，表中的一个单元可以从(至多)三个相邻的单元达到。我们把达左上角单元距离最小的方向看作相似序列延伸的方向。等距离时意味着存在两种可能的方向。将这些方向记录下来，并在研究了所有的单元之后，沿着记录的方向就有一条路径可从右下角(两个序列的末端)追踪到左上角 (两个序列的起点)。由此所产生的路径将给出具有最短距离的序列比对。以两个短序列CTGTATC和CTATAATCCC为例，将上述过程说明于图3.4。设碱基错配时距离权重为1，引入一个空位时距离权重为3。该图边缘的行和列作为起始条件增加到表中。在单元5行3列，即相应较短序列(第二序列)的第2个T碱基和较长序列(第一序列)的第1个T碱基位置，有三种可能的距离增量。设在各序列中增加碱基T时 (从4行2列移动)对距离的贡献为0。从5行2列的位置作水平移动(等价于增加第二序列的碱基T而在第一序列引入一个空位)，在本例中增加一个罚