如何进史行序列分析.ppt

  1. 1、本文档共107页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何进史行序列分析

序列分析;一、碱基组成 ; 表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。 ;表1 九种完整DNA序列的碱基组成 ;表2 人类胎儿球蛋白基因不同区段的碱基组成 ;二.碱基相邻频率 ;图1 鸡β球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860) ;表3 图1鸡β球蛋白基因序列的相邻碱基分布 ; 在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。 ;表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列) ; 相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings,1989);三.同向重复序列分析 ; 例如:5字码TGACC的值为1+3×44+2×43+0×42+1×41+1×40=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。 ;表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983) ;四、RNA二级结构预测 ;五、从序列中寻找基因 ;一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是不连续的,被非编码区(内含子)隔断。 ; 所谓基因区域预测,一般是指预测DNA序列中编码蛋白质的部分,即外显子部分。 不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识,预测出可能的完整基因; 基因区域的预测是一个活跃的研究领域,先后有一大批预测算法和相应程序被提出和应用,其中有的方法对编码序列的预测准确率高达90%以上,而且在敏感性和特异性之间取得了很好的平衡;;目前基因区域预测的各种算法均存在以下2个问题;2.发现基因的一般过程 ;第二步:查找ORF并将目标序列翻译成蛋白质序列;进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务器上进行;第八步:获取相关蛋白质的功能信息 ;3.解读序列(making sense of the sequence) ;六、基于编码区特性:最长ORF法;预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类:;最长ORF法:在细菌基因组中,蛋白质编码基因从起始密码ATG到终止密码平均有100bp,而300bp长度以上的ORF平均每36Kb才出现一次,所以只要找出序列中最长的ORF(300bp)就能相当准确地预测出基因; 利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(Genetic Computer Group 研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法; CpG岛:CpG岛(CpG island)一词是用来描述哺乳动物基因组DNA中的一部分序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现,几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因的5‘末端含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。另外,AT含量也可以作为编码区的批示指标之一;七、序列比对; 数据库搜索的基础是序列的相似性

文档评论(0)

181****7126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档