基因组序列注释的方法综述.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因组序列注释的方法 一、基因组序列注释 以基因组序列为基础,确定全基因 序列中基因的确切位置 二、注释的方法 1 、根据开放阅读框( ORF )预测 1 )起始密码子 ATG : 第一个 ATG 的确定依据 Kozak 规则,所谓 Kozak 规则,即第一个 ATG 侧翼序列的碱基 分布所满足的统计规律: 若将第一个 ATG 中的碱基 A , T , G 分别标为 1 , 2 , 3 位,则 Kozak 规则可描述如下: ( 1 )第 4 位的偏好碱基为 G ; ( 2 ) ATG 的 5 端约 15bp 范围的侧翼序列内不含碱基 T ; ( 3 )在 -3 , -6 和 -9 位置, G 是偏好碱基; ( 4 )除 -3 , -6 和 -9 位,在整个侧翼序列区, C 是偏好 碱基 2 )终止密码子 : 终止密码子 : TAA , TAG , TGA GC% = 50% 终止密码子每 64 bp 出现一次; GC% 50% 终止密码子每 100 - 200 bp 出现一 次; 由于多数基因 ORF 均多于 50 个密码子,因此最可能 的选择应该是 ORF 选择不少于 100 个密码子。 细菌基因组的 ORF 阅读相对比较简单,错误的概率较少, 但单纯的 ORF 扫描对高等真核生物 DNA 效果不佳。 内含子使 ORF 扫描复杂化 对 ORF 扫描的基本程序的编写要 考虑以下几个问题: a 、 密码子偏倚 ? 编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第 3 位碱基不同。 ? 特定生物体的基因中并不是所有密码子的使用 频率都是平等的。 如 Leu 的密码子有 6 个( TTA 、 TTG 、 CTT 、 CTC 、 CTA 、 CTG ),在人类基因中,绝大多数 Leu 都是由 CTG 编码的,而且几乎不由 CTA 和 TTA 编码。 ? 特定种属有特征性的密码子偏爱,这些序列在 编码区常常出现,非编码区只保持平均的碱基分 布水平。 b 、外显子-内含子边界 外显子和内含子的边界有一些明显的特征如: ? 内含子的 5 端常见的顺序为 5 - AG↓GTTAAGT -3 ; ? 3 端多为 5 ‘ PyPyPyPyPyPyCAG- 3 ( “ Py ”嘧啶核苷酸, T 或 C) ; 上游外显子 - 内含子边 界的共有序 列在真正基 因中发现的 真实序列之 间的关系。 运用 外显子-内含子边界特殊 序列的方法来注释基因的成功率不 高。 c 、 上游调控顺序 ? 几乎所有基因(或操纵子)上游都有调控 序列,它们与 DNA 结合蛋白作用,控制基因 表达,通过同源性比较来预测 mRNA 的 5 端, 最常用的与转录起始位点相关的数据库是 真核启动子数据库 (The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ ) 。 ? 另外个别基因组特有组成也可作为判别依 据,如脊椎动物基因组许多基因的上游都 有 大约 1kb 长的 CpG 岛 。 2 、 同源查询 利用已存入数据库中的 基因序列与待查基因组序列 进行比较,从中查找可与之 匹配的碱基序列及其比例用 于界定基因的方法。 A. DNA 序列某些片段完全相同; B. 开放阅读框排列类似; C. 开放阅读框翻译成的氨基酸序列的相同; D. 模拟多肽高级结构相似。 ? 一般认为,氨基酸序列的相似性在 25% 以上可视 为同源基因。 ? 这些结果均可作为基因判定的指标,可单独用, 也可综合用。 基因注释软件 1) 目前基因注释程序的编写主要依据两种信息内涵 : 1. signal terms ( 信号指令 ) , 如起始密码 , 终止密码 , 终止信号 , 多聚嘧啶顺序 , 分支点等保守的顺序组成 ; 2. content terms ( 内容指令 ) , 如密码子使用偏好 . 对结构紧凑的小基因组上述注释软件效果不错 , 但对大基因 组特别是超长基因的注释有很

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档