- 4
- 0
- 约3.94千字
- 约 49页
- 2017-03-05 发布于天津
- 举报
第一讲基因组测序与序列组装
第二讲 基因组序列诠释 问题 基因组序列所包含的全部遗传信息是什么? 基因组作为一个整体如何行使其功能? 用什么方法寻找基因,研究基因地功能呢? 1. 寻找基因 1.1 根据开放读码框预测基因 A 起始密码子 ATG 第一个ATG的确定(依据Kozak规则); Kozak规则是基于已知数据的统计结果. 所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律. Kozak规则: 若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下: (1)第4位的偏好碱基为G; (2)ATG的5’端约15bp范围的侧翼序列内不含碱基T; (3)在-3,-6和-9位置,G是偏好碱基; (4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。 B 信号肽分析 信号肽分析软件(SignalP http://www.cbs.dtu.dk/services/signalP ) 把预测过程中证实含完整mRNA 5’端的序列翻译为蛋白序列; 然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽; C 终止密码子 终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次; GC% 50% 终止密码子每100-200 bp 出现一次; 由于多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子。 D 3’端的确认 3’端的确认主要根据Poly(A)尾序列,若测试DNA片段不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。 E 非编码序列、内含子 高等真核生物多数外显子长度少于100 个密码子,有的不到50个密码子甚至更少; F 密码子偏爱性 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。 不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用。 G 外显子-内含子边界 外显子和内含子的边界有一些明显的特征, 如:内含子的5‘端或称供体位(donor site)常见的顺序为 5’-AG↓GTTAAGT-3’; 3’端又称受体位(acceptor site), 多为5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C); H 上游控制顺序 几乎所有基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用,控制基因表达。 通过同源性比较来预测mRNA的5’端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ )。 另外个别生物基因组的特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG岛。 I 软件预测 采用NCBI的ORF预测软件 ( ORF finder: /gorf/orfig.cgi )判断ORF的可能范围。 1.2 同源查询途径 通过已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例,用于界定基因的方法称为同源查询。 同源有如下几种情况: A DNA序列某些片段完全相同; B 开放读码框(ORF)排列类似,如有长外显子; C 开放读码框翻译成氨基酸序列的相似性; D 模拟多肽高级结构相似 1.3 试验分析 Northern 杂交确定DNA片段是表达序列. 注意事项: a 当某一基因的转录产物进行可变剪接时,由于连接的外显子不同,会产生好几条长度不一的杂交带; 如果该基因是某一基因家族的成员也会出现多个信息; b 考虑组织专一性和发育阶段的问题; C 基因表达产物丰度的问题 如果风度较低,用拟Northern 杂交和动物杂交(Zoo-blotting)分析。 拟Northern 杂交—— 根据已知的DNA顺序设计引物,从mRNA群体中扩增基因产物,再以DNA为探针与之杂
原创力文档

文档评论(0)