生物信息学讲义生物信息学概述什么是生物信息学又称计算.DOCVIP

下载本文档

21
0
约2.25万字
约 34页
2018-09-02 发布于天津
举报
版权申诉

生物信息学讲义生物信息学概述什么是生物信息学又称计算.DOC

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物信息学讲义生物信息学概述什么是生物信息学又称计算

PAGE PAGE 34 生物信息学讲义第一章：生物信息学概述什么是生物信息学：又称计算生物学（computational biology），是生物学与信息学、计算机科学相互交叉形成的新兴学科，它应用数学、计算机科学的方法研究生物学问题，它所研究的主要对象是生物学的数据。生物信息学是为了适应人类基因组计划（Human Genome Project，HGP）的需要产生的，最主要的应用是对人类基因组计划所得到的大量生物学数据进行存储、检索和分析。目前生物信息学已被广泛的应用于医学、人类学、结构生物学和蛋白质组学（Proteomics）等研究领域。生物信息学的研究内容：广义地说，生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义，一是对海量数据的收集、整理与服务，也就是管好这些数据；另一个是从中发现新的规律，也就是用好这些数据。具体地说，生物信息学是把基因组 DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和 RNA基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在 DNA序列中的遗传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律。生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测，并将此类信息与生物体和生命过程的生理生化信息相结合，阐明其分子机理，最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。基因组信息学、蛋白质的结构计算与模拟以及药物设计，这三者紧密地围绕着遗传信息传递的中心法则，因而必然有机地连接在一起。小知识：为什么基因组学研究依赖生物信息学小知识：为什么基因组学研究依赖生物信息学生物信息数据库中的数据以指数方式增长自1995年科学家破译了全长为180万核苷酸的嗜血流感杆菌基因组以来，到目前已有大约60个微生物和若干真核生物，如：酵母、线虫、果蝇、拟南芥的完整基因组完成测序。至2001年的春天，科学家又公布了人类基因组的绝大部分序列，即人类基因组的工作草图（Human Genome Draft）。这些成就意味着基因组的研究将全面进入数据挖掘和分析和信息提取和的崭新阶段。据统计，1999年12月DNA碱基数目为30亿，2000年4月DNA碱基数目是60亿，现在这一数目已达140亿，大约每14个月翻一番。同时，计算机对于数字处理能力的增长也相当于每18个月翻一番。因此，计算机能够有效地管理和运行海量数据。基因组数据的复杂性 DNA是由A、T、G、C4种核苷酸以不同的方式排列、串接起来组成的线状长链。人类遗传密码含有32亿个字符，将它们堆起来就构成了一部100多万页、每页有3000字符的“天书”。这本“天书”包含了人体的结构和功能以及生命活动过程的大量信息，却仅仅由4个字符组成，既无词法，又无句法，还没有标点符号，看起来每一页都是相似的。如何读懂它是个极大的难题。基因组研究最终是要把生物学问题转化成对数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、技术、工具，就必须依赖计算机的信息处理。基因组序列数据的拼接和组装基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基，而目前DNA测序多采用鸟枪法（shotgun），每个反应只能读取几百到上千个碱基。在进行测序前，首先应用物理方法将人的基因组打碎，得到基因组片段进行测序，然后再把这些片段重新拼接起来。基因组序列数据的拼接和组装是生物信息学研究的一个热点研究领域，美国华盛顿大学、加利福尼亚大学在该领域的研究居于绝对领先地位。发现新基因和新的单核苷酸多态性电脑克隆：利用 EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短 c DNA序列，它们携带着完整基因的某些片段的信息。到2001年10月，GenBank的EST数据库中人类 E ST序列已超过380万条，它大约覆盖了人类基因的90％以上。电脑克隆德的原理是找到属于同一基因的所有 EST片段，再把它们连接起来。由于 EST序列是全世界很多实验室随机产生的，所以属于同一基因的很多 E ST序列间必然有大量重复小片段，利用这些小片段作为标志就可以把不同的 E ST连起来，直到发现了它们的全长，这样我们就可以说通过电脑克隆找到了一个基因。但是电脑克隆的产物需要经过实验的验证。从基因组 DNA序列中预测新基因：从基因组序列预测新基因，本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库