- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因组序列注释的方法 一、基因组序列注释 以基因组序列为基础,确定全基因 序列中基因的确切位置 二、注释的方法 1 、根据开放阅读框( ORF )预测 1 )起始密码子 ATG : 第一个 ATG 的确定依据 Kozak 规则,所谓 Kozak 规则,即第一个 ATG 侧翼序列的碱基 分布所满足的统计规律: 若将第一个 ATG 中的碱基 A , T , G 分别标为 1 , 2 , 3 位,则 Kozak 规则可描述如下: ( 1 )第 4 位的偏好碱基为 G ; ( 2 ) ATG 的 5 端约 15bp 范围的侧翼序列内不含碱基 T ; ( 3 )在 -3 , -6 和 -9 位置, G 是偏好碱基; ( 4 )除 -3 , -6 和 -9 位,在整个侧翼序列区, C 是偏好 碱基 2 )终止密码子 : 终止密码子 : TAA , TAG , TGA GC% = 50% 终止密码子每 64 bp 出现一次; GC% 50% 终止密码子每 100 - 200 bp 出现一 次; 由于多数基因 ORF 均多于 50 个密码子,因此最可能 的选择应该是 ORF 选择不少于 100 个密码子。 细菌基因组的 ORF 阅读相对比较简单,错误的概率较少, 但单纯的 ORF 扫描对高等真核生物 DNA 效果不佳。 内含子使 ORF 扫描复杂化 对 ORF 扫描的基本程序的编写要 考虑以下几个问题: a 、 密码子偏倚 ? 编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第 3 位碱基不同。 ? 特定生物体的基因中并不是所有密码子的使用 频率都是平等的。 如 Leu 的密码子有 6 个( TTA 、 TTG 、 CTT 、 CTC 、 CTA 、 CTG ),在人类基因中,绝大多数 Leu 都是由 CTG 编码的,而且几乎不由 CTA 和 TTA 编码。 ? 特定种属有特征性的密码子偏爱,这些序列在 编码区常常出现,非编码区只保持平均的碱基分 布水平。 b 、外显子-内含子边界 外显子和内含子的边界有一些明显的特征如: ? 内含子的 5 端常见的顺序为 5 - AG↓GTTAAGT -3 ; ? 3 端多为 5 ‘ PyPyPyPyPyPyCAG- 3 ( “ Py ”嘧啶核苷酸, T 或 C) ; 上游外显子 - 内含子边 界的共有序 列在真正基 因中发现的 真实序列之 间的关系。 运用 外显子-内含子边界特殊 序列的方法来注释基因的成功率不 高。 c 、 上游调控顺序 ? 几乎所有基因(或操纵子)上游都有调控 序列,它们与 DNA 结合蛋白作用,控制基因 表达,通过同源性比较来预测 mRNA 的 5 端, 最常用的与转录起始位点相关的数据库是 真核启动子数据库 (The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ ) 。 ? 另外个别基因组特有组成也可作为判别依 据,如脊椎动物基因组许多基因的上游都 有 大约 1kb 长的 CpG 岛 。 2 、 同源查询 利用已存入数据库中的 基因序列与待查基因组序列 进行比较,从中查找可与之 匹配的碱基序列及其比例用 于界定基因的方法。 A. DNA 序列某些片段完全相同; B. 开放阅读框排列类似; C. 开放阅读框翻译成的氨基酸序列的相同; D. 模拟多肽高级结构相似。 ? 一般认为,氨基酸序列的相似性在 25% 以上可视 为同源基因。 ? 这些结果均可作为基因判定的指标,可单独用, 也可综合用。 基因注释软件 1) 目前基因注释程序的编写主要依据两种信息内涵 : 1. signal terms ( 信号指令 ) , 如起始密码 , 终止密码 , 终止信号 , 多聚嘧啶顺序 , 分支点等保守的顺序组成 ; 2. content terms ( 内容指令 ) , 如密码子使用偏好 . 对结构紧凑的小基因组上述注释软件效果不错 , 但对大基因 组特别是超长基因的注释有很
您可能关注的文档
- 2020基于AdaBoost算法的人脸检测.ppt
- 2020基于mfc的简易windows播放器.doc
- 基于新课程环境下的初中地理总复习策略研究课题结题申请报告.doc
- 基于自在生成理论的哈尔滨中华巴洛克建筑风格研究.ppt
- 基因对性状的控制宋志真.ppt
- 基因工程的基本操作程序高中生物选修3专题1第2节2017人教版.ppt
- 2020基本初等函数章末复习.ppt
- 2020基础会计学课程.ppt
- 2020基础工程之桩基础的分类.ppt
- 基金是如何投资企业的.ppt
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)