- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章 序列分析与联配;序列分析是生物信息学最主要的研究内容之一,它可以分为两个主要部分:
一是序列组成(特别是涉及到基因组层次上)分析,二是序列之间的比较分析。
两条序列或多条序列间的比对或联配(alignment)的目的,是对它们的序列相似性进行评估,找出这些序列中结构或功能相似性区域等。通过联配未知序列与已知序列(其功能或结构等已知)的相似程度,我们可以判断或推测未知序列的结构与功能。 ;第一节 序列组成及单一序列分析;一、碱基组成;二、碱基相邻频率;作为一个特别的例子,图3.1给出了鸡血红蛋白β链的mRNA编码区的438个碱基。表3.4列出了4种碱基和16种两碱基的数目。将该表看作4×4的表,计算行列独立性的卡方统计量,得到x2=59.3(x20.05,9=16.92)表明行(第一碱基)列(第二碱基)之间存在明显的关联。 ;在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。表3.5列出了遗传密码和图3.1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表3.5还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。 ;相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings,1989)。在不援引任何生物学机制的情况下,第k阶马尔科夫链假定在序列中某一位置上碱基的存在只取决于前面k个位置上的碱基。一阶链假定一个特定碱基存在于位置i的概率只取取决于在位置i-1的4种碱基概率。相互独立的碱基所组成的序列将与0阶马尔科夫链相对应。阶可以通过似然法估计。同时,马尔科夫链分析更适应于基因组水平,而非单一序列(基因)。;三、同向重复序列分析;表3.6列出了序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的第2个碱基为起点的3字码值及位置列于表3.7,其中发现字码值为1、45和49的序列有重复。以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。因此最长的同向重复为4、8、9位置上的AAA,13、17位置上的GTA以及7、14位置上的TAA。同样对图3.1鸡β球蛋白DNA序列进行同向重复序列搜索,一些最长同向重复序列列于表3.8。 ;Karlin等(1983)提出了序列内存在的最长同向重复序列的统计显著性评价方法。在核苷酸的位置为独立的假定下(相当于阶次为0的马尔科夫链),长度为n的序列中,最长同向重复Ln的期望长度和方差为:;可以用一个近似方法来验证以上统计假说。假定同向重复序列的长度呈正态分布。对于图3.1鸡β蛋白序列,A、C、G、T四个碱基的次数分别为87、144、118和89,因而P=0.2614,最长重复序列的期望长度为8.13且具有期望方差0.9138。根据95%的正态分布概率,理论上可以预期最长同向重复序列不超过10。 ;四、DNA序列的几何学分析—Z曲线;他们的研究始于对4种碱基对称性的观察,提出了用正面体表示碱基对称性。1994年,他们利用这种形式来表示任意长度的DNA序列。现将这种序列表示方法简述如下。 ;方程3.2;其中xn,yn和zn为点Pn的三个坐标分量。当n从1跑到L时,我们依次得到P1,P2,P3,...,PL共L个点。将相邻两点用适当的曲线连接所得到的整条曲线,就称为表示DNA序列的Z曲线。可以证明,Z曲线与所表示的DNA序列是一一对应的,即给定一DNA序列,存在唯一的一条Z曲线与之对应;反之,给定一条Z曲线,可找到唯一的一个DNA序列与之对应。换言之,Z曲线包含了DNA序列的全部信息。Z曲线是与符号DNA序列等价的另一种表示形式,一种几何形式。可以通过Z曲线对DNA序列进行研究。 ;Z曲线的三个分量(方程3.2)具有明确的生物学意义:xn表示嘌呤/嘧啶碱基沿序列的分布。当从1到n的这个子序列中(图3.2)嘌呤碱基多于嘧啶碱基时,xn0,否则,xn0,当两者相等时xn=0。同样,yn表示氨基/酮基碱基沿序列的分布。当在子序列中氨基碱基多于酮基碱基时,yn0,否则,yn0,当两者相等时yn=0。zn表示强/弱氢键碱基沿序列的分布。当弱氢键碱基多于强氢键碱基时,zn0,否则zn0,当两者相等时,zn=0。这三种分布是相互独立的,表现在以下事实上:
文档评论(0)