生物信息学简单介绍分析.ppt

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学Bioinformatics content 1.生物信息学简介 2.生物信息学数据库 3.生物信息学软件 4.生物信息学门户网站 5.生物信息学在基因芯片技术中的作用 1.生物信息学简介 20世纪50年代以来,生命科学进入了前所未有的高速发展阶段,在短短几十年积累了大量的数据。据不完全统计,目前在国际数据库中记录的DNA序列的碱基早已超过了100亿; 而随着人类和其他模式生物基因组测序的完成,可以预计今后DNA序列数据的增长将更为惊人; 与此同时,蛋白质的一级结构,即氨基酸序列的数据的积累也随之增加,迄今已测定一万多种蛋白质的不同分辨率的空间结构。 这一切构成了一个生物学数据的海洋。 1.2 定义 广义: 指对基因组研究中的相关生物信息的获取、加工、存储、 分配、分析、和解释。 它包括了两层含义: 一是、对海量数据的收集、整理与服务; 二是、从中发现新的规律。具体来说,生物信息学是把基因组DNA序列信息 作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区,同时阐明基 因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言 规律。在此基础上归纳、整理与基因组遗传信息释放及调控相关的转录普和 蛋白质普的数据,从而认识生物有机体的代谢、发育、分化、进化规律。 狭义:采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。 模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约50多种已完成,70余种正在进行。目前总量已达60亿碱基对! Escherichia coli 大肠杆菌 Drosophila melanogaster 果蝇 Arabidopsis thaliana 拟南芥 1.4发现新基因和新的核苷酸多态性 发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如啤酒酵母完整基因组所包含的基因约6000个,大约60%的基因是通过信息分析得到的。 1.2.1基因的电脑克隆 利用EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短的cDNA序列,它们携带着完整基因的某些片段的信息。目前,Genbank的EST数据库中水稻EST序列已达124万条,拟南芥达80万条,而人类的EST序列已超过957万余条,它大约覆盖了人类基因的90%以上。 基因的电脑克隆原理很简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连接起来,直到发现了他们的全长,这样就可以通过电脑克隆到一个基因。 如果这个基因以前未曾发现过,那它就是一个新基因。 但是进行电脑克隆基因的程序设计复杂,计算量巨大。 1.2.2 从基因组DNA中预测新基因 从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新基因。 1.2.3发现核苷酸多态性 核苷酸多态性(single nucleotide polymorphism ,SNP)是指基因组内DNA中某一特定核苷酸位置上存在转换、颠换、插入、缺失等变化。 现在普遍认为SNP研究是植物基因组计划走向应用的重要步骤之一。因为SNP将提供一个强有力的工具,用于与重要农艺形状相关基因的鉴定以及生物学的基础研究等。 1.5基因组中非编码蛋白质区域的结构与功能 近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%~20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占基因组序列的绝大部分。这表明这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。 对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),最新资料说明这部分序列只占基因组的1.1%。仅占人类基因组1.1%的编码区的相关研究已经缔造了数十名诺贝尔奖获得者,98%非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。 2.生物信息学数据库 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。目前国际上已建立了许多公共生物信息学数据库,包括核酸序列数据库、蛋白质序列数据库、蛋白质片段数据库、生物大分子结构数据库和生物学文献数据库等。这些数据库有专门的机构建立和维护

文档评论(0)

琼瑶文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档