第二讲 基因组序列诠释 辽宁师范大学.pptVIP

第二讲 基因组序列诠释 辽宁师范大学.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因组学 第5章 基因组序列诠释 完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清: ①基因组顺序中所包含的全部遗传信息是什么? ②基因组作为一个整体如何行使其功能? 这两项任务都必须依赖于对基因组顺序的正确注解或诠释(annotation),首先是从已知顺序中搜寻基因。 5.1 搜寻基因 一旦获取基因组的DNA顺序后,不管它是来自某一区段还是一整条染色体,第一个任务就是从中查找基因,这是解读整个基因组的基础。查找基因有两种常见的方法: ①根据已知的顺序人工判读或计算机分析寻找与基因有关的序列; ②进行实验研究,看其能否表达基因产物及其对表型的影响。 5.1.1 根据顺序分析搜寻基因 如果一段DNA顺序中含有编码基因,那么这段顺序的碱基序列就不会是随机排列的,一定存在某些可以辨别的特征。目前还没有一个能适用于所有情况的“基因序列”的标准,只能根据已知的某些规律来推测哪些顺序可能是基因。 开放读框 基因都含有开放读框(open reading frames,ORFs),它们由一系列指令氨基酸的密码子(codons)组成。开放读框有一个起点,又称起译密码(initiation codon):ATG;还有一个终点,又称终止密码(termination codon):TAA、TAG和TGA。从DNA顺序中搜寻基因总是从第一个ATG开始,然后向下游寻找终止密码。在开始这项工作之前,我们并不知道DNA双链中哪一条单链是编码链,或称正(+)链,也不知道准确的转译起始点在何处。由于每条链都有三种可能的读框,两条链共计6种读框,计算机可以很快给出结果。 ORF扫描的关键是终止密码在6种读框中出现的频率。如果DNA的碱基排列是随机的,并且GC含量为50%,则三个终止密码子:TAA、TAG和TGA出现的平均机率为每43= 64bp一次。假如GC比大于50%,因终止密码中AT比例高,则每隔100-200bp才会出现一个终止密码。随机碱基排列的ORF长度预计不超过50个密码子,即150bp,以ATG起始计算长度更短。大多数基因的ORF均多于50个密码子,因此最可能的选择应该是ORF不少于100个密码子的读框。 细菌基因组中缺少内含子,非编码序列仅占11%,对读框的排查干扰较少。假定基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的最大可能性只会发生在非编码区。细菌基因组的ORF阅读相对比较简单,错误的机率较少。 高等真核生物DNA的ORF阅读比较复杂,其原因在于: ①基因间存在大量非编码序列(人类基因组中占70%); ②绝大多数基因含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子,有些不到50个密码子甚至更少,因此当读码进入内含子时很快遇上终止密码,难以根据上述的ORF长度来判断哪种读框是正确的。 内含子的出现给计算机判读基因带来不少问题,在编写ORF扫描程序时要作许多修改,必须加入一些相应的规则: ①密码子偏爱 生物具有通用的64种密码子,其中三种为终止密码子,其余61种密码子编码20种氨基酸,除甲硫氨酸(Met)和色氨酸(Trp)各有1个密码子外,其他氨基酸都拥有多个密码子。编码同一氨基酸的不同密码子称为同义密码(synonym),其差别仅在密码子的第三位碱基不同。不同种属之间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用。苏氨酸(Thr)常用的密码子为ACA,ACC或ACT,很少用ACG。高等植物207个基因的编码顺序,其中单子叶植物基因53个,双子叶植物基因154个,分属6个单子叶和35个双子叶种群。单子叶与双子叶主群密码子(majority codon)中第三个摇摆碱基的成员比例明显不同。单子叶18种氨基酸中有16种氨基酸的密码子摇摆碱基为G+C,而双子叶中仅有7种氨基酸的密码子摇摆碱基为G+C,或者说双子叶密码子摇摆碱基大多为A+T。这一现象称为密码子偏爱(codon bias),其产生的原因不明。特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。根据已有生物密码子偏爱的资科在编写相应的计算机程序时可加入这些限制。 ②外显子-内含子边界(exon-intron boundaries) 外显子与内含子的边界区有一些明显的特征,如内含子的5’端或称供体位(donor site)常见的顺序为5’-AG↓GTAAGT-3’,3’端又称受体位(acceptor site)多为5’-PyPyPyPyPyPyCAG -3’(“Py”为嘧啶核苷酸,T或C)。这是判断编码顺序的依据之一。由于外显子-内含子边界顺序

文档评论(0)

peace0308 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档