上篇-清华大学出版社.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
上篇-清华大学出版社.PDF

上 篇 多序列比对基础篇 第1章 生物多序列比对 1.1 生物信息学 1.1.1 生物信息学的起源 自从1990 年美国启动人类基因组计划以来,人与模式生物基因 组的测序工作进展极为迅速。迄今已完成了约40 多种生物的全基因 9 组测序工作,人基因组约3 ×10 个碱基对的测序工作也接近完成。 至2000 年6 月26 日,被誉为生命“阿波罗计划”的人类基因组计 划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成 了工作草图,这是人类科学史上又一个里程碑式的事件,它预示着 完成人类基因组计划已经指日可待。截至目前,仅登录在美国GenBank 数据库中的DNA 序列总量已超过70 亿个碱基对。在人类基因组计 划进行过程中所积累起来的技术和经验,使得其他生物基因组的测 序工作可以完成得更快捷。可以预计,今后 DNA 序列数据的增长 将更为惊人。生物学数据的积累并不仅仅表现在 DNA 序列方面, 与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。此外, 迄今为止,已有10 000 多种蛋白质的空间结构以不同的分辨率被测 定。基于cDNA 序列测序所建立起来的EST 数据库,其记录已达数 百万条。在这些数据基础上派生、整理出来的数据库已达500 余个。 这一切构成了一个生物学数据的海洋。可以打一个比方来说明这些 数据的规模。有人估计,人类(包括已经去世的和仍然在世的)所说 过的话的信息总量约为5EB(1EB=1018B) ,而如今生物学数据信息总 量已接近甚至超过此数量级。这种科学数据的急速和海量积累,在 人类的科学研究历史中是空前的。 数据并不等于信息和知识,但却是信息和知识的源泉,关键在 于如何挖掘它们。与正在以指数方式增长的生物学数据相比,人类 相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却 十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、 农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其 生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾 就催生了一门新兴的交叉科学,这就是生物信息学。 1.1.2 生物信息学的概念 美国人类基因组计划实施五年后的总结报告中,对生物信息学 做了以下定义:生物信息学是一门交叉科学,它包含了生物信息的 获取、处理、存储、分发、分析和解释等在内的所有方面,它综合 运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数 据所包含的生物学意义。生物信息学这一名词的出现仅仅是几年前 的事情,但是计算生物学这一名词的出现要早得多。鉴于这两门学 科之间并没有或难以界定严格的分界线,在这里统称为生物信息学。 它是当今生命科学和自然科学的重大前沿领域之一,同时也是21 世 纪自然科学的核心领域之一。其研究重点主要体现在基因组学 (genomics)和蛋白组学(proteomics)两方面,具体说就是从核酸和蛋白 质序列出发,分析序列中表达的结构功能的生物信息。 1.1.3 生物信息学的主要研究内容 生物信息学主要包括以下几个主要研究领域,但是限于篇幅, 这里仅列出其名称并只做简单介绍。 1. 序列比对(alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。 4 序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟 的动态规划算法,以及在此基础上编写的比对软件包—— BLAST 和 FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要 的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。 Smith-Waterman 算法是解决局部比对的好算法,缺点是速度较慢。两 个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。 2. 蛋白质三级结构比对 蛋白质三级结构比对是生物信息学的重要研究领域。蛋白质的 功能由蛋白质的三级结构决定,蛋白质三维空间结构的相似性比较 是分析蛋白质结构和功能的重要手段,因此比较蛋白质的三级结构 可以了解它们之间的相互作用和进化关系。

文档评论(0)

shiyouguizi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档