第二章 序列收集与存储(ok).ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 序列收集与存储(ok)

生物信息学 序列与基因组分析; 目录;§1 分子生物信息数据库;根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库。 一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑;二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。 序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。;染色体;§2 DNA测序;A;Fig 2.3 通过寡核苷酸引物对DNA分子进行连续测序. DNA单链通过与已知序列互补的寡核苷酸引物(蓝色)进行引导测序。根据测得的序列,可以在下游产生两种引物,一种(绿色)可以对同一条单链继续测序,另一种引物(紫色)通过和互补链进行杂交,对互补链进行反方向的测序。这也提供了所得序列进行确认以提高精确度的一种途径。;§3 基因组测序;Map fragments;§4 cDNA文库测序;Fig 2.5 单链cDNA分子合成示意图;基因调控研究表明,人体每一个细胞、每一个组织,在不同得发育、分化阶段,不同的生理条件和病理条件下,其表达的基因种类以及每一基因的表达丰度都是各不相同的,且此差别存在严格调控的时空特异性。而结构基因组研究不能告诉人们那些基因在何时何地以何种程度表达。 1991年,Venter等提出大规模cDNA测序研究战略并建立了表达序列标签(EST)技术。其主要目标是,收集大量的cDNA序列片断,并将之通过数据库同源性检索以鉴定新基因,这是一种规模化鉴定新基因的全新模式。由于这些cDNA序列片断是基因全长转录物的片断,除非这一片断正好对应了某一基因家族的保守区,它往往代表一个基因,因此称这些cDNA为EST。 但由于“cDNA计划”当初是为鉴定新基因而设计,由该方法收集到的EST并不能作为特定细胞表达基因的量化分析的数据来源。;§5 序列数据提交;§6 序列精度;在翻译GenBank等数据库中EST序列的过程中,错误的碱基可能被翻译成错误的氨基酸。然而,最严重的问题是碱基的插入或删除引起的序列结构上的移位,这将在组装蛋白质的过程中出现很大的困难。 另外一种类型容易出错的数据库序列,即从致病生物体中出现免疫变化的序列片断,例如HIV病毒的蛋白质外壳的区域。 虽然低水平的精确度对定性鉴别等研究工作是适合的,但要进行更精细的分析(比如进化分析),序列片断的精度必须得到保证。 ;§7 序列的计算机存储;序列文件和其他包含非ASCII字符的数据文件也会在不同的机器之间传递过程中出现错误。一些通信软件可以设法忽略这些控制字符。例如,文件传输程序(FTP) 拥有可以由用户设置的ASCII和二进制码两种方式。其中ASCII方式常用于传输文本文件,而二进制码方式用来传输包含非ASCII码的压缩文件。 大多数序列分析程序不仅仅需要一个DNA或蛋白序列文件是标准的ASCII文件,而且还要规定特定的格式(见§8 )。计算机的窗口界面大大简化了这些问题,比如操作者仅仅需要在一个窗口(例如在浏览ENTREZ网页的窗口)中进行拷贝,而在另一个窗口(例如正在运行翻译程序的窗口)中进行粘贴。 ;Symbol;1字母符号;§8 序列格式;§8.1 GenBank中DNA序列格式;LOCUS name of locus, length and type of sequence, classification of organism, data of entry DEFINITION desicription of entry ACCESSION accession number of original source KEYWORDS key words for cross referencing this entry SOURCE source organism of DNA ORGANISM description of organism REFERENCE COMMENT biological function of database information FEATURES information about sequence by base position or range of posi

您可能关注的文档

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档