- 19
- 0
- 约1.59万字
- 约 67页
- 2017-05-22 发布于广东
- 举报
第5章基因组序列诠释20111024
基因组学 第5章 基因组序列诠释 完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清: ①基因组顺序中所包含的全部遗传信息是什么? ②基因组作为一个整体如何行使其功能? 这两项任务都必须依赖于对基因组顺序的正确注解或诠释(annotation),首先是从已知顺序中搜寻基因。 5.1 搜寻基因 一旦获取基因组的DNA顺序后,不管它是来自某一区段还是一整条染色体,第一个任务就是从中查找基因,这是解读整个基因组的基础。查找基因有两种常见的方法: ①根据已知的顺序人工判读或计算机分析寻找与基因有关的序列; ②进行实验研究,看其能否表达基因产物及其对表型的影响。 5.1.1 根据顺序分析搜寻基因 如果一段DNA顺序中含有编码基因,那么这段顺序的碱基序列就不会是随机排列的,一定存在某些可以辨别的特征。目前还没有一个能适用于所有情况的“基因序列”的标准,只能根据已知的某些规律来推测哪些顺序可能是基因。 开放读框 基因都含有开放读框(open reading frames,ORFs),它们由一系列指令氨基酸的密码子(codons)组成。开放读框有一个起点,又称起译密码(initiation codon):ATG;还有一个终点,又称终止密码(termination codon):TAA、TAG和TGA。从DNA顺序中搜寻基因总是从第一个ATG开始,然后向下游寻找终止密码。在开始这项工作之前,我们并不知道DNA双链中哪一条单链是编码链,或称正(+)链,也不知道准确的转译起始点在何处。由于每条链都有三种可能的读框,两条链共计6种读框,计算机可以很快给出结果。 ORF扫描的关键是终止密码在6种读框中出现的频率。如果DNA的碱基排列是随机的,并且GC含量为50%,则三个终止密码子:TAA、TAG和TGA出现的平均机率为每43= 64bp一次。假如GC比大于50%,因终止密码中AT比例高,则每隔100-200bp才会出现一个终止密码。随机碱基排列的ORF长度预计不超过50个密码子,即150bp,以ATG起始计算长度更短。大多数基因的ORF均多于50个密码子,因此最可能的选择应该是ORF不少于100个密码子的读框。 细菌基因组中缺少内含子,非编码序列仅占11%,对读框的排查干扰较少。假定基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的最大可能性只会发生在非编码区。细菌基因组的ORF阅读相对比较简单,错误的机率较少。 高等真核生物DNA的ORF阅读比较复杂,其原因在于: ①基因间存在大量非编码序列(人类基因组中占70%); ②绝大多数基因含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子,有些不到50个密码子甚至更少,因此当读码进入内含子时很快遇上终止密码,难以根据上述的ORF长度来判断哪种读框是正确的。 内含子的出现给计算机判读基因带来不少问题,在编写ORF扫描程序时要作许多修改,必须加入一些相应的规则: ①密码子偏爱 生物具有通用的64种密码子,其中三种为终止密码子,其余61种密码子编码20种氨基酸,除甲硫氨酸(Met)和色氨酸(Trp)各有1个密码子外,其他氨基酸都拥有多个密码子。编码同一氨基酸的不同密码子称为同义密码(synonym),其差别仅在密码子的第三位碱基不同。不同种属之间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用。苏氨酸(Thr)常用的密码子为ACA,ACC或ACT,很少用ACG。高等植物207个基因的编码顺序,其中单子叶植物基因53个,双子叶植物基因154个,分属6个单子叶和35个双子叶种群。单子叶与双子叶主群密码子(majority codon)中第三个摇摆碱基的成员比例明显不同。单子叶18种氨基酸中有16种氨基酸的密码子摇摆碱基为G+C,而双子叶中仅有7种氨基酸的密码子摇摆碱基为G+C,或者说双子叶密码子摇摆碱基大多为A+T。这一现象称为密码子偏爱(codon bias),其产生的原因不明。特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。根据已有生物密码子偏爱的资科在编写相应的计算机程序时可加入这些限制。 ②外显子-内含子边界(exon-intron boundaries) 外显子与内含子的边界区有一些明显的特征,如内含子的5’端或称供体位(donor site)常见的顺序为5’-AG↓GTAAGT-3’,3’端又称受体位(acceptor site)多为5’-PyPyPyPyPyPyCAG -3’(“Py”为嘧啶核苷酸,T或C)。这是判断编码顺序的依据之一。由于外显子-内含子边界顺序
您可能关注的文档
- 第18章基因表达调控liff重修.ppt
- 第12章_微生物的进化、系统发育和分类鉴定.ppt
- 第1讲基因工程一轮复习.ppt
- 第1节基因突变和基因重组161.ppt
- 第2章等离子体与材料的相互作用.ppt
- 第2章新基因工程及其在食品工业中的应用.ppt
- 第2章随机变量及其分布归纳整合.ppt
- 第2节聚合酶链式反应PCR.ppt
- 第3章动物细胞工程制药二.ppt
- 第2节基因工程及其应用教学.ppt
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)