- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最长ORF法:在细菌基因组中,蛋白质编码基因从起始密码ATG到终止密码平均有100bp,而300bp长度以上的ORF平均每36Kb才出现一次,所以只要找出序列中最长的ORF(300bp)就能相当准确地预测出基因 第三十页,共四十四页。 利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(Genetic Computer Group 研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法 第三十一页,共四十四页。 第六章 序列分析 第一页,共四十四页。 一、碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。 第二页,共四十四页。 表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。 第三页,共四十四页。 表1 九种完整DNA序列的碱基组成 第四页,共四十四页。 表2 人类胎儿球蛋白基因不同区段的碱基组成 第五页,共四十四页。 二.碱基相邻频率 分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积 例: 鸡血红蛋白β链的mRNA编码区的438个碱基 第六页,共四十四页。 图1 鸡β球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860) 第七页,共四十四页。 表3 图1鸡β球蛋白基因序列的相邻碱基分布 第八页,共四十四页。 在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。 第九页,共四十四页。 表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列) 第十页,共四十四页。 相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings,1989) 第十一页,共四十四页。 三.同向重复序列分析 除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值α,例如A、C、G、T的值为0、1、2、3。由X1、X2、…、Xk 共k个字母组成的每一种不同的字码按: 计算字码值。这些值的取值范围为1到4k 第十二页,共四十四页。 例如:5字码TGACC的值为1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。 序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。 在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。 从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复;以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。 第十三页,共四十四页。 表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983) 第十四页,共四十四页。 四、RNA二级结构预测 尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳
您可能关注的文档
最近下载
- 江铃-江铃E400-产品使用说明书-E400豪华型-JX70021BEV-江铃E400使用说明书.pdf VIP
- 污水处理厂安全风险分级管控和隐患排查治理双体系方案资料(2022-2023版).pdf VIP
- 心内科典型案例分享.docx VIP
- 海南自贸港“零关税”进境商品清单1.xlsx VIP
- (完整)高中英语3500词汇表.pdf VIP
- 2025年山东省高考地理试卷真题(含答案解析).docx
- 《土地勘测定界规程 TD-T1008-2016》.pdf
- 铁矿石基础的知识培训.ppt VIP
- 五、六年级下册体育教案.doc VIP
- 三菱FX5U PLC编程及应用 课件 项目三 混料灌控制系统的编程与实现.pdf
文档评论(0)