- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
序列分析
一、碱基组成
DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。
表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。
表1 九种完整DNA序列的碱基组成
表2 人类胎儿球蛋白基因不同区段的碱基组成
二.碱基相邻频率
分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积
例:
鸡血红蛋白β链的mRNA编码区的438个碱基
图1 鸡β球蛋白基因编码区的DNA序列
(GenBank:CHKHBBM,记录号J00860)
表3 图1鸡β球蛋白基因序列的相邻碱基分布
在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。
表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。
表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。
表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列)
相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings,1989)
三.同向重复序列分析
除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为0、1、2、3。由X1、X2、…、Xk 共k个字母组成的每一种不同的字码按:
计算字码值。这些值的取值范围为1到4k
例如:5字码TGACC的值为1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。
序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。
在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。
从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复;以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。
表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983)
四、RNA二级结构预测
尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区,但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还是一个未知数。即使有此局限性,二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。
五、从序列中寻找基因
1.基因及基因区域预测
基因按其功能可分为结构基因和调控基因:结构基因可被转录形成mRNA,并进而转译成多肽链;调控基因是指某些可调节控制结构基因表达的基因。在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病毒的DNA中ORF是连续的,包括人类在内的真核生物的大部分结构基因为断裂基因,即其编码序列在DNA分子上是不连续的,或被插入序列隔开。断裂基因被转录成前体mRNA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列,但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。
一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是不连续的,被非编码区(内含子)隔断。
所谓基因区域预测,一般是指预测DNA序列中编码蛋白质的部分,
您可能关注的文档
最近下载
- 全套电子课件:物理(第六版).ppt
- 2024-2025学年高中信息技术(信息科技)必修1 数据与计算沪科版(2019)教学设计合集.docx
- 2025年中国金枪鱼交易中心行业全景调研及竞争格局预测报告.docx
- (本科)东南亚经济与贸易全套教学课件完整版PPT.pptx VIP
- Notre-Dame de Paris 巴黎圣母院音乐剧歌词(中法双语全).docx VIP
- 特种设备安全管理培训课件.pptx
- 牧场物语矿石镇的伙伴们完全攻略.doc VIP
- “十五五”林业发展规划.docx
- 2024-2025学年中职语文职业模块高教版(2023)教学设计合集.docx
- 温湿度计校准作业指导书.pdf VIP
文档评论(0)