基因组信息分析-东南大学生物电子学国家重点试验室.docVIP

基因组信息分析-东南大学生物电子学国家重点试验室.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因组信息分析-东南大学生物电子学国家重点试验室

第5章 基因组信息分析 人类基因组计划的主要成果是得到一本“天书”,这本天书既简单又复杂。说它简单,是因为这本天书仅仅由4个字母构成,这4个字母分别是A、T、C、G;说它复杂,是因为这本天书包括所有人类生长发育的信息,隐含人类生老病死的规律。对于基因组序列,我们最关心的就是从序列之中找到基因及其表达调控信息。寻找基因牵涉到两个方面的工作,一是识别与基因相关的特殊序列信号,如启动子、起始密码子,通过信号识别大致确定基因所在的区域。另一个工作是预测基因的编码区域,或预测外显子所在的区域。然后结合两个方面的结果确定基因的位置和结构。绝大部分基因表达调控信息隐藏在基因序列的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。 5.1 关于遗传语言 5.1.1 基因组DNA的奥秘 生命是大自然最伟大的创造物,经过亿万年的进化,生命的形式从简单的有机物发展到现在高度复杂但有序的生物系统。蛋白质是构造生命机器的基本元件,大量结构不同、功能各异的蛋白质在遗传信息的控制之下,被不断地合成出来,并有机地组成复杂的生物体。遗传信息存贮在基因组中,具体说就是存贮在由4种字符组成的核酸序列中。 随着分子生物学中心法则的确立,人们逐渐认识到,遗传信息的载体主要是DNA(在少数情况下RNA也充当遗传信息载体),控制生物体性状的基因则是一系列DNA片段。一方面,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息,另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质。基因控制着蛋白质的合成,基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的遗传密码。1961年,科学家Nirenberg使用信使RNA分子研究得到第一个遗传密码,1969年确定全部的遗传密码。 遗传密码的发现拉开了在分子水平上的生命信息科学研究的序幕,启动了人类探索遗传语言奥秘的进程。许多科学家认为,基因组DNA序列并非是一种简单的生物分子序列,而可能是一种语言,该语言描述遗传信息,控制生物体的性状,规定生物个体的生老病死。为了深刻揭示这种遗传语言的奥秘,科学家们开始测序人类及其它模式生物基因组,希望解读和破译遗传信息,使人类在分子水平上全面地认识自我。由于生物技术的高速发展,人类基因组计划已经提前至2003年全部完成,我们已经得到的关于人类遗传信息的长达数百万页的“天书”。这本天书就是用遗传语言书写的人类遗传蓝本,是解读遗传语言的基础。之所以称它为天书,不单是因为它所包含的信息量巨大,更重要的是目前人类对它了解甚少,还无法读懂它。天书中只有4个字符(碱基A、T、G、C),既没有段落,也没有标点符号,是一个长度为3×109的一维序列。 迄今为止,科学家对这本天书了解最多的部分就是遗传密码,或者说掌握了DNA对蛋白质编码的规律。遗传密码又称为三联体密码,它说明DNA序列三个连续的碱基为一个蛋白质的氨基酸编码。已知自然界中的蛋白质由20种不同的氨基酸所组成,究竟需要几个连续的碱基为1个氨基酸编码呢?显然,1个碱基不行,1个碱基最多只能编码4种氨基酸。那么,2个碱基是否能够完成编码任务呢?2个碱基最多能产生16(42)密码子,只能为16种氨基酸编码,也不行。而3个连续碱基可能形成的密码子共有64(43)个,完全满足编码的需要,所以遗传密码是三联体密码。由于三联体密码的密码子数目大于氨基酸种类数目,所以,对于一种氨基酸,可能存在多个密码子,同义密码子一般在第三位发生变化。例如UCU、UCC、UCA和UCG均为丝氨酸的密码子。显然,这种编码方式具有一定的容错性,一位编码发生错误可能不会对蛋白质翻译结果产生影响。假设丝氨酸密码子的最后一位发生变化,其变化结果仍然是同义密码子,对信息传递影响不大。遗传密码具有通用性,在生物界除了线粒体等细胞质基因外,密码子几乎是通用的,因而,可以说生物界中的遗传语言也是通用的。 密码子的使用是非随机的。如果密码子的第一、第二位碱基分别是A和U,那么,第三位将尽可能使用G或C;反之亦然。由于G、C之间可以形成三对氢键,而A、U之间只能形成两对氢键,因此,如果三位都用G、C,则配对容易,分解难;三位都用A、U,则相反。一般地说,高表达的基因,要求翻译速度快,密码子和反密码子配对快、分手也快。密码子的第一位和第二位极少有选择的余地,所以,只能在第三位进行取舍。 密码子的使用是有一定的统计规律的。基因对同义密码子的使用存在着偏爱,但不同种属偏爱的密码子不同,并且偏爱程度也不同。特别的是,根据统计,在人类基因组中,密码子第三位取A、U的情况占90%,而第三位取G、C仅占10%。 密码子中三个碱基

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档