生物信息学课堂.pptVIP

生物信息学课堂.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

绪论;产生(分子生物学研究中获得的大量数据);定义;基因组信息是生物信息中最基本的表达形式,并且基因组信息量在生物信息量中占有极大的比重,但是,生物信息并不仅限于基因组信息,生物信息学也不等于是基因组信息学。广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。;生物信息学的产生;生物信息学的发展过程;生物信息学的重要性;生物信息学的基本方法:;生物信息学的研究内容;生物信息学的研究内容;生物信息学的研究内容;生物信息学的研究内容;数据管理系统

伴随着实验过程的高度自动化甚至工厂化,从事大规模分子生物学项目的实验室,每天需要存储的数据可以轻易地超过几千兆字节。这样大的数据量必须用专门的实验室数据管理系统进行处理,以自动完成包括实验进程和数据的记录,常规数据分析,数据质量检测和问题的自动查找,常规的数据说明和数据输人数据库在内的各项工作。由于不同实验室需处理的数据类型各不相同,很多实验室都是各自开发自己的系统。随着测序逐渐成为实验室的常规工作,对这种系统的需求会越来越大。;生物信息学的研究内容;目前最为常见的基因测序方法是鸟枪法(Shotgunmethod)。鸟枪法测序的结果使我们只能得到大量的随机的基因片段

更廉价和更高效的新一代测序技术,基因片段越来越短,基本上是25-30个碱基对的片段,与以前的长达几百几千的基因拼接在算法上就有了差异性。为了能够在超短序列上拼接出完整的基因序列,就必须加大测序的覆盖率,这样将会导致庞大的初始序列文件,通常达到了GB级别。最新的序列拼接软件ALLPATHSV3.0需要至少32GB的内存,这种昂贵的代价是一般机器无法提供的。

超短基因片段导致了大量的overlap(重叠区域),这将是传统的拼接算法所无法承受的计算量。还有大量的repeat(重复区域)也将使传统的算法更加的不可靠。同时初始文件的庞大导致传统的内存算法已经不再适用。

;基因区域的预测(基因注释)

在完成序列的拼接后,我们得到的是很??的DNA序列,甚至可能是整个基因组的序列。这些序列中包含着许多未知的基因,下一步就是将基因区域从这些长序列中找出来。

所谓基因区域的预测,一般是指预测DNA顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATAbox和加尾信号)的认识,预测出可能的完整基因。;基因组注释

有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占1.1%;外显子与外显子之间的区域(称为内含子)占了24%;而基因与基因之间的间隔序列却占了75%,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。

;发现新基因

发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60%是通过信息分析得到的。

;发现新基因--〉(1)基因的电脑克隆

利用EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短cDNA序列,它们携带着完整基因的某些片段的信息。到2001年10月,GenBank的EST数据库中人类EST序列已超过380万条,它大约覆盖了人类基因的90%以上。

我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。

;发现新基因-〉(2)从基因组DNA序列中预测新基因

从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在

文档评论(0)

知识改变命运 + 关注
实名认证
文档贡献者

爱好打球

1亿VIP精品文档

相关文档