序列的收集与存储(ok)演示文件修改版.pptVIP

序列的收集与存储(ok)演示文件修改版.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序列的收集与存储(ok)演示文件修改版

生物信息学 序列与基因组分析 序列的收集与存储 目录 §1 分子生物信息数据库 分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二次数据库。 基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。 根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库。 一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑;二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。 序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。 §2 DNA测序 Sanger双脱氧终止法:单链DNA模板与寡核苷酸引物杂交,新的DNA链在DNA聚合酶催化下从引物末端进行合成。在反应混合物中除了有模板DNA、引物、 DNA聚合酶和4种底物dNTPs之外,还加入一定比例的四种2,3-双脱氧核苷酸三磷酸ddNTPs(终止核甘)之一。例如,加入ddATP,则所得到的合成物产生一系列嵌套的DNA片断,通过荧光标记替代发现其中每一个片断终止于序列的A碱基对。对其他三种碱基,采用同样的方法,但需要不同的荧光标记。 所有标记的DNA片断混合物经过电泳分离大小不同的片断,并对这四种标记的片断进行扫描。然后通过某一程序判断条码的顺序并预测序列。 §3 基因组测序 DNA测序不能从染色体进行,首先必须克隆化,构建基因组的物理图谱。 先构建片段DNA克隆(以YAC或BAC为载体),并把克隆依染色体排序,这就是“染色体的克隆图”。依片断DNA克隆在染色体上所在的位置排序,可以得到相互重叠的一系列克隆,叫做“克隆重叠群”(contig)。选取有关的克隆进行DNA测序,就可以“拼装”出整个染色体或基因组的DNA序列。如果克隆片断太大仍不便于直接测序,则需通过亚克隆,构建更小的片断。 另外一种方法是对所有相互重叠的亚克隆进行测序,然后直接通过计算机程序根据其重叠部分进行“拼装”。 §4 cDNA文库测序 不连续基因:基因的编码序列在DNA分子上是不连续的,为不编码的区域所隔开。这是人们关于不连续基因特征的初步认识。编码的序列称为外元(exon),不编码的区域称为内元(intron)。不连续基因是通过mRNA与DNA杂交实验而发现的。 cDNA:首先从细胞中提取mRNA,然后通过逆转录酶合成mRNA的DNA拷贝,即单链cDNA。单链cDNA分子再通过DNA聚合酶的作用转变成双链cDNA。cDNA去除了“非编码区域”,因而很容易用来定位蛋白质编码区域。 基因调控研究表明,人体每一个细胞、每一个组织,在不同得发育、分化阶段,不同的生理条件和病理条件下,其表达的基因种类以及每一基因的表达丰度都是各不相同的,且此差别存在严格调控的时空特异性。而结构基因组研究不能告诉人们那些基因在何时何地以何种程度表达。 1991年,Venter等提出大规模cDNA测序研究战略并建立了表达序列标签(EST)技术。其主要目标是,收集大量的cDNA序列片断,并将之通过数据库同源性检索以鉴定新基因,这是一种规模化鉴定新基因的全新模式。由于这些cDNA序列片断是基因全长转录物的片断,除非这一片断正好对应了某一基因家族的保守区,它往往代表一个基因,因此称这些cDNA为EST。 但由于“cDNA计划”当初是为鉴定新基因而设计,由该方法收集到的EST并不能作为特定细胞表达基因的量化分析的数据来源。 §5 序列数据提交 提交单位:1. The National Center for Biotechnology Information(NCBI)();2. The DNA Databank of Japan(DDBJ)(www.ddbj.nig.ac.jp);3. The Europe Molecular Biology Laboratory(EMBL)/ EBI Nucleotide Sequence Database (http://www.embl-heidelberg.de)。 网页提交: 。 通过Sequin软件提交(Ftp:///sequin

文档评论(0)

taotao0b + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档