- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 基因组序列注释 完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清: 基因组序列中所包含的全部遗传信息是什么; 基因组作为一个整体如何行使其功能。 这两项任务都必须依赖于对基因组序列的正确注释(annotation)。 基因组注释方法: ① 自动注释:依据某些规则进行数据分析得出是否为基因的结论。 ② 人工注释:人为检测评价自动注释的结果并根据其他数据进行分析与校正。 ③ 实验注释:根据实验结果进行检测,如EST或全长cDNA。 自动注释的内容: 依据基因结构的特点采用软件预测,不依赖已有的表达序列; 同源性比较,在同一物种或不同物种中查找已有的基因序列; 功能域(domain)或基序(motif)分析。 5.1 搜寻基因5.1.1 根据基因结构特征搜寻基因 Ⅰ. 开放读码框 在DNA链上,由蛋白质合成的起始密码子开始,到终止密码子为止的一个连续编码序列称为一个开放读码框(open reading frame, ORF)。 读码框(reading frame) 任意一段DNA序列都有6种可能的读码框。 ORF的长度: 终止密码子: TAA, TAG, TGA GC% = 50%,终止密码子每 64 bp出现一次; GC% 50%,终止密码子每100~200 bp 出现一次; 由于多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子。 最长ORF法 在细菌基因组中,蛋白质编码基因从起始密码子ATG到终止密码子平均有100 bp,而300 bp长度以上的ORF平均每36 Kb才出现一次,所以只要找出序列中最长的ORF(>300 bp)就能相当准确地预测出基因。 在真核生物中,存在大量非编码序列和内含子,ORF阅读比较复杂。 全长cDNA的编码区一般也可以用最长ORF法,如水稻的3万多条的全长cDNA的编码区预测,有时例外。 Ⅱ 起始密码子 ATG 第一个ATG的确定依据Kozak规则。 Kozak是一个女科学家,她研究过起始密码子ATG周边碱基定点突变后对转录和翻译所造成的影响,并总结出在真核生物中,起始密码子两端序列为:——G/N-C/N-C/N-ANNATGG——,如GCCACCATGG、GCCATGATGG时,转录和翻译效率最高,特别是-3位的A对翻译效率非常重要。 该序列被后人称为Kozak序列,并被应用于表达载体的构建中。 Kozak规则的内容: 若将第一个ATG中的碱基A、T、G分别标为1、2、3位,则Kozak规则可描述如下: (1) 第4位的偏好碱基为G; (2) ATG的5’端约15bp范围的侧翼序列内不含碱基T; (3) 在-3,-6和-9位置,G是偏好碱基; (4) 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。 Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。 Ⅲ 密码子偏爱性(codon bias) 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。不同种属间使用同义密码的频率有很大差异: 如人类基因中,丙氨酸(Ale)密码子多为GCA、GCC或GCT,而GCG很少使用。 Ⅳ 上游控制顺序 几乎所有基因(或操纵子)都有上游调控序列,它们可与DNA结合蛋白作用,控制基因表达,如启动子序列。 生物的基因组特有组成也可作为判别依据,如几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因的5’末端含有CpG岛。在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。 Ⅴ 外显子与内含子边界 Chambon等发现内含子特点: (1)内含子连接点具有很短的保守序列,称为边界顺序。其规律称为GT-AG法则(GT-AG rule) 或Chambon法则。 。 Ⅵ 3’端的确认 3’端的确认主要根据Poly(A)尾序列,若测试序列不含Poly(A),则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。 Ⅶ 编码区与非编码区 由于内含子的进化没有外显子受到的选择压力大,内含子的序列比外显子的序列更随机。 这是目前各种预测程序中被广泛应用的一种方法,如GCG的TestCode、美国波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序。 5.1.2 同源基因查询 物种之间存在着广泛的同源基因,包括编码和非编码序列。 Ⅰ 同源查询(homology search) 利用已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹配的碱基序列或蛋白质序列及其比例,这种识别基因的方法称为~。 同源查询相似性的表现: 存在某些完全相同的序列; ORF的排列类似
文档评论(0)