如何进行序列辩析.ppt

下载文档 降价啦

0
0
约1.71万字
约 107页
2016-08-25 发布于湖北
举报
版权申诉
保障服务

如何进行序列辩析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

序列分析一、碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的，但几乎所有的研究都证明碱基是以不同频率分布的。表1包含了9个完整DNA分子序列的资料，表2的数据来自两个胎儿球蛋白基因(Gr和Ar)，每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”，基因间区域是指两个基因间的其余序列。表1 九种完整DNA序列的碱基组成表2 人类胎儿球蛋白基因不同区段的碱基组成二．碱基相邻频率分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积例：鸡血红蛋白β链的mRNA编码区的438个碱基图1 鸡β球蛋白基因编码区的DNA序列 (GenBank：CHKHBBM，记录号J00860) 表3 图1鸡β球蛋白基因序列的相邻碱基分布　在编码区，存在某种约束来限制DNA序列编码氨基酸。在密码子水平上，这一约束与碱基相邻频率有关。表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小，难以作出有力的统计结论，但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表4还清楚地表明，由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型，因而对第3位置上碱基的约束要比第 2位碱基小得多。表4 64种可能的碱基三联体密码子及相应的氨基酸数（据图1序列）　相邻碱基之间的关联将导致更远碱基之间的关联，这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings，1989) 三．同向重复序列分析　　除了分析整个序列碱基关联程度的特征外，我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为0、1、2、3。由X1、X2、…、Xk 共k个字母组成的每一种不同的字码按：计算字码值。这些值的取值范围为1到4k 　例如：5字码TGACC的值为1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。　序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。　在本例中只有4个重复的2碱基重复序列。例如，在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。　从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复；以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983) 四、RNA二级结构预测尽管现有一些RNA折叠程序可以预测RNA二级结构，但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区，但对给定的RNA分子来说，这一结果的生物学意义究竟有多大，还是一个未知数。即使有此局限性，二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。五、从序列中寻找基因 1.基因及基因区域预测基因按其功能可分为结构基因和调控基因：结构基因可被转录形成mRNA，并进而转译成多肽链；调控基因是指某些可调节控制结构基因表达的基因。在DNA链上，由蛋白质合成的起始密码开始，到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列，除了细菌和病毒的DNA中ORF是连续的，包括人类在内的真核生物的大部分结构基因为断裂基因，即其编码序列在DNA分子上是不连续的，或被插入序列隔开。断裂基因被转录成前体mRNA，经过剪切过程，切除其中非编码序列(即内含子)，再将编码序列(即外显子)连接形成成熟mRNA，并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列，但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。一种典型的真核蛋白质编码基因的结构示意图。其编码序列（外显子）是不连续的，被非编码区（内含子）隔断。所谓基因区域预测，一般是指预测DNA序列中编码蛋白质的部分，