基因组信息分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 基因组信息分析 第一部分: 搜索遗传语言; 原核、真核基因组特点 原核基因组特点 ??? 原核生物的遗传物质大都是环状DNA,它们基因组存在固有的特点,可以利用这些特点分辨物种,识别基因。 长开放阅读框 ???开放阅读框 open reading frame :结构基因内从起始密码子开始到终止密码子的一段核苷酸区域,其间不存在任何终止密码,可编码完整的多肽链,这一区域被称为开放阅读框。 ORF表明该区域可能对应于一个原核生物基因的编码序列。 长开放阅读框 绝大部分原核生物蛋白质的长度大于60个氨基酸 在大肠杆菌E.coli中,蛋白质编码区域平均长度为316.8个密码子,不到1.8%的基因的长度小于60个密码子 原核基因分析的简单原则 若终止密码子出现在非编码核酸序列中,大约每21个密码子出现一次(3/64). 如果所有的密码子在随机的核酸序列中以相同的频率出现,则不含终止密码子且长度为N个密码子的序列出现的几率为(61/64)N . 长度为N的ORF的95%显著性置信度等价于5%“随机”命中的可能性,即(61/64)N 0.05,这里N等于60,表示典型长度的ORF中密码子的数目。 高基因密度 原核基因组中的基因密度非常高 完全测序的细菌和古细菌的基因组数据表明,其中85%到88%的核酸序列与基因的编码直接相关。 在大肠杆菌(E.coli)中总共有4,288个基因,平均编码长度为950bp,而基因之间的平均间隔长度只有118bp。 简单的基因结构 GC含量 碱基G、C相对于A、T的丰度很早就被看作是区分细菌基因组的特征之一 . 不同的原核生物中,GC含量(GC content)从25%到75%,变化非常大。 大部分细菌是通过从其它生物体大规模获得基因(长度为几万甚至几十万个核苷酸)而进化的 水平转移 . 简而言之,许多细菌基因组表现为具有不同GC含量的区域的组合物,这些区域反映了细菌的进化历史。 真核基因组特点 基因组规模大 非编码序列大 基因结构复杂 基因转录调控方式复杂 可变剪接 CpG岛 等值区 密码子使用偏性 基因组规模 真核细胞的细胞核中一般有多条线性染色体,而且通常包含每条染色体的双拷贝。 人的基因组总长度超过30亿对碱基,而大肠杆菌的基因组只有500多万个碱基。 非编码序列巨大 真核生物具有复杂的基因组结构。 编码区域在人类基因组所占的比例不超过3%。 其余97%是非编码序列,而在非编码序列中,各种重复序列占了很大一部分。 基因结构复杂 基因转录调控方式复杂 真核基因的表达涉及多种RNA聚合酶。 与原核生物只使用一种由多个蛋白聚合而成的RNA聚合酶不同,真核生物至少使用由8到12个蛋白组成的三种不同类型的RNA聚合酶。 RNA 聚合酶I和III负责转录生成RNA分子,这些分子本身执行重要的功能,在所有的真核细胞中需要始终保持相当恒定的水平。 RNA聚合酶II专门负责转录编码蛋白质的基因。 RNA聚合酶II识别的启动子序列的多样性反映了区别基因的复杂程度,即在特定类型的细胞中和在特定的时间,区别哪些基因该表达而哪些基因不该表达。 可变剪接 估计有20%或更多的人类基因因为可变剪接(alternative splicing)而产生两种或多种不同的mRNA序列 . 有一个人类的基因已经被证明,相同的原始转录物可以产生64种不同的mRNA CpG岛 真核生物基因组的GC含量的差别没有在原核生物间观察到的那么明显,但是CG两联核苷酸(常称作CpG,以表明连接两个核苷酸的磷酸二脂键)的出现频率仅为其随机出现的频率的20%,而没有发现其它核苷酸对有异常的出现频率。 CpG岛 许多人类基因5’-端的1~2kb片段中发现CpG岛(CpG island),此处CpG的密度达到随机预测的水平。 人类基因组全长序列的分析结果表明,大约有45,000这样的岛,并且有一半左右与已知的管家基因 housekeeping gene,指在所有组织和在发育的所有阶段都高水平表达的基因)是有关联的,其余的CpG岛有许多似乎是和组织特异性基因的启动子相关联的。CpG岛很少出现在不含基因的区域和那些发生多次突变的基因中。 等值区 定义:具有一致碱基组成的长区域 特征 : 等值区基因组序列的长度超过1,000,000对碱基 虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡 人类基因组大约可以划分为五个不同类型的等值区:a L1和L2,平均GC含量分别为39%和42% 欠GC b H1、H2和H3,GC含量平均值分别为46%、49%和54% 丰GC 密码子使用偏性 每个氨基酸至少对应1种密码子,最

文档评论(0)

神话 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5203223011000000

1亿VIP精品文档

相关文档