第3章序列比较.docVIP

下载本文档

91
0
约4.56万字
约 50页
2018-03-30 发布于河南
举报
版权申诉

第3章序列比较.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第3章序列比较序列比较是生物信息学中最基本、最重要的操作，通过序列比对可以发现生物序列中的功能、结构和进化的信息。序列比较的根本任务是：通过比较生物分子序列，发现它们的相似性，找出序列之间共同的区域，同时辨别序列之间的差异。在分子生物学中，DNA或蛋白质的相似性是多方面的，可能是核酸或氨基酸序列的相似，可能是结构的相似，也可能是功能的相似。一个普遍的规律是序列决定结构，结构决定功能。研究序列相似性的目的之一是，通过相似的序列得到相似的结构或相似的功能。这种方法在大多数情况下是成功的，当然也存在着这样的情况，即两条序列几乎没有相似之处，但分子却折叠成相同的空间形状，并具有相同的功能。这里先不考虑空间结构或功能的相似性，仅研究序列的相似性。研究序列相似性的另一个目的是通过序列的相似性，判别序列之间的同源性，推测序列之间的进化关系。这里将序列看成由基本字符组成的字符串，无论核酸序列还是蛋白质序列，都是特殊的字符串。本章着重介绍通用的序列比较方法。 3.1 序列的相似性序列的相似性可以是定量的数值，也可以是定性的描述。相似度是一个数值，反映两条序列的相似程度。关于两条序列之间的关系，有许多名词，如相同、相似、同源、同功、直向同源、共生同源等。在进行序列比较时经常使用“同源”（homology）和“相似”（similarity）这两个概念，这是两个经常容易被混淆的不同概念。两条序列同源是指它们具有共同的祖先。在这个意义上，无所谓同源的程度，两条序列要么同源，要么不同源。而相似则是有程度的差别，如两条序列的相似程度达到30%或60%。一般来说，相似性很高的两条序列往往具有同源关系。但也有例外，即两条序列的相似性很高，但它们可能并不是同源序列，这两条序列的相似性可能是由随机因素所产生的，这在进化上称为“趋同”（convergence），这样一对序列可称为同功序列。直向同源（orthologous）序列是来自于不同的种属同源序列，而共生同源（paralogous）序列则是来自于同一种属的序列，其产生是由于进化过程中的序列复制。序列比较的基本操作是比对（align）。两条序列的比对（alignment）是指这两条序列中各个字符的一种一一对应关系，或字符对比排列。序列的比对是一种关于序列相似性的定性描述，它反映在什么部位两条序列相似，在什么部位两条序列存在差别。最优比对揭示两条序列的最大相似程度，指出序列之间的根本差异。 3.1.1 字母表和序列在生物分子信息处理过程中，将生物分子序列抽象为字符串，其中的字符取自特定的字母表。字母表是一组符号或字符，字母表中的元素组成序列。一些重要的字母表有：（1）4字符DNA字母表 A, C, G, T ；（2）扩展的遗传学字母表或IUPAC编码（见表2-3）；（3）单字母氨基酸编码（见表2-1）；（4）上述字母表形成的子集。下面所讨论的内容独立于特定的字母表。首先规定一些特定的符号： ① — 字母表； ② A* — 由字母表A中字符所形成的一系列有限长度序列或字符串或序列的集合； ③ a、b、c — 单独的字符； ④ s、t、u、v、x — A*中的序列； ⑤ |s| — 序列s的长度。为了说明序列s的子序列和s中单个字符，我们在s中各字符之间用数字标明分割边界。例如，设s ACCACGTA，s可表示为 0A1C2C3A4C5G6T7A8 。 i:s:j 指明第i位或第j位之间的子序列。当然，0 i j |s|。子序列0 : s : i 称为前缀，即prefix s,i ，而子序列 i:s:|s| 称为后缀suffix s, |s|-i+1 。有两种特殊的情况，即 i j或i j-1。 ① i:s:i 表示空序列 ② j-1 :s: j 表示s 中的第j 个字符，简记为sj 。一般认为，子序列与计算机算法中子串的概念相当。但是严格地讲，子序列与子串的概念是有区别的：子串是子序列，而子序列不一定是子串。可以通过选取s中的某些字符（或删除s中的某些字符）而形成s的子序列，例如TTT是ATATAT的子序列。而s的子串则是由s中相继的字符所组成，例如TAC是AGTACA的子串，但不是TTGAC的子串。如果t是s的子串，则称s是t的超串。子串也可以称为连续子序列。两条序列s和t的连接用s + + t来表示，如： ACC++CTA ACCCTA 字符串操作除连接操作之外，另有一个k操作，即删除一个字符串两端的字符。其定义如下： prefix s,l sk|s|-l ， suffix s,l k|s|-ls ， i:s:j ki-1sk|s|-j 。序列比较可以分为四种基本情况，具体任务和应用说明如下：假设有两条长度相近的、来

您可能关注的文档

文档评论（0）

seym + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第3章序列比较.docVIP