基因组信息分析-东南大学生物电子学国家重点试验室.docVIP

下载本文档

2
0
约6.39万字
约 45页
2017-08-16 发布于天津
举报
版权申诉

基因组信息分析-东南大学生物电子学国家重点试验室.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基因组信息分析-东南大学生物电子学国家重点试验室

第5章基因组信息分析人类基因组计划的主要成果是得到一本“天书”，这本天书既简单又复杂。说它简单，是因为这本天书仅仅由4个字母构成，这4个字母分别是A、T、C、G；说它复杂，是因为这本天书包括所有人类生长发育的信息，隐含人类生老病死的规律。对于基因组序列，我们最关心的就是从序列之中找到基因及其表达调控信息。寻找基因牵涉到两个方面的工作，一是识别与基因相关的特殊序列信号，如启动子、起始密码子，通过信号识别大致确定基因所在的区域。另一个工作是预测基因的编码区域，或预测外显子所在的区域。然后结合两个方面的结果确定基因的位置和结构。绝大部分基因表达调控信息隐藏在基因序列的上游区域，在组成上具有一定的特征，可以通过序列分析识别这些特征。 5.1 关于遗传语言 5.1.1 基因组DNA的奥秘生命是大自然最伟大的创造物，经过亿万年的进化，生命的形式从简单的有机物发展到现在高度复杂但有序的生物系统。蛋白质是构造生命机器的基本元件，大量结构不同、功能各异的蛋白质在遗传信息的控制之下，被不断地合成出来，并有机地组成复杂的生物体。遗传信息存贮在基因组中，具体说就是存贮在由4种字符组成的核酸序列中。随着分子生物学中心法则的确立，人们逐渐认识到，遗传信息的载体主要是DNA（在少数情况下RNA也充当遗传信息载体），控制生物体性状的基因则是一系列DNA片段。一方面，DNA通过自我复制，在生物体的繁衍过程中传递遗传信息，另一方面，基因通过转录和翻译，使遗传信息在生物个体中得以表达，并使后代表现出与亲代相似的生物性状。在基因表达过程中，基因上的遗传信息首先通过转录从DNA传到RNA，然后再通过翻译从RNA传递到蛋白质。基因控制着蛋白质的合成，基因的DNA序列到蛋白质序列存在着一种明确的对应关系，而这种对应关系就是我们所知道的遗传密码。1961年，科学家Nirenberg使用信使RNA分子研究得到第一个遗传密码，1969年确定全部的遗传密码。遗传密码的发现拉开了在分子水平上的生命信息科学研究的序幕，启动了人类探索遗传语言奥秘的进程。许多科学家认为，基因组DNA序列并非是一种简单的生物分子序列，而可能是一种语言，该语言描述遗传信息，控制生物体的性状，规定生物个体的生老病死。为了深刻揭示这种遗传语言的奥秘，科学家们开始测序人类及其它模式生物基因组，希望解读和破译遗传信息，使人类在分子水平上全面地认识自我。由于生物技术的高速发展，人类基因组计划已经提前至2003年全部完成，我们已经得到的关于人类遗传信息的长达数百万页的“天书”。这本天书就是用遗传语言书写的人类遗传蓝本，是解读遗传语言的基础。之所以称它为天书，不单是因为它所包含的信息量巨大，更重要的是目前人类对它了解甚少，还无法读懂它。天书中只有4个字符（碱基A、T、G、C），既没有段落，也没有标点符号，是一个长度为3×109的一维序列。迄今为止，科学家对这本天书了解最多的部分就是遗传密码，或者说掌握了DNA对蛋白质编码的规律。遗传密码又称为三联体密码，它说明DNA序列三个连续的碱基为一个蛋白质的氨基酸编码。已知自然界中的蛋白质由20种不同的氨基酸所组成，究竟需要几个连续的碱基为1个氨基酸编码呢？显然，1个碱基不行，1个碱基最多只能编码4种氨基酸。那么，2个碱基是否能够完成编码任务呢？2个碱基最多能产生16（42）密码子，只能为16种氨基酸编码，也不行。而3个连续碱基可能形成的密码子共有64（43）个，完全满足编码的需要，所以遗传密码是三联体密码。由于三联体密码的密码子数目大于氨基酸种类数目，所以，对于一种氨基酸，可能存在多个密码子，同义密码子一般在第三位发生变化。例如UCU、UCC、UCA和UCG均为丝氨酸的密码子。显然，这种编码方式具有一定的容错性，一位编码发生错误可能不会对蛋白质翻译结果产生影响。假设丝氨酸密码子的最后一位发生变化，其变化结果仍然是同义密码子，对信息传递影响不大。遗传密码具有通用性，在生物界除了线粒体等细胞质基因外，密码子几乎是通用的，因而，可以说生物界中的遗传语言也是通用的。密码子的使用是非随机的。如果密码子的第一、第二位碱基分别是A和U，那么，第三位将尽可能使用G或C；反之亦然。由于G、C之间可以形成三对氢键，而A、U之间只能形成两对氢键，因此，如果三位都用G、C，则配对容易，分解难；三位都用A、U，则相反。一般地说，高表达的基因，要求翻译速度快，密码子和反密码子配对快、分手也快。密码子的第一位和第二位极少有选择的余地，所以，只能在第三位进行取舍。密码子的使用是有一定的统计规律的。基因对同义密码子的使用存在着偏爱，但不同种属偏爱的密码子不同，并且偏爱程度也不同。特别的是，根据统计，在人类基因组中，密码子第三位取A、U的情况占90%，而第三位取G、C仅占10%。密码子中三个碱基