第三讲第二章Internet的核酸数据库资源1.ppt

第三讲第二章Internet的核酸数据库资源1.ppt

  1. 1、本文档共108页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三讲第二章Internet的核酸数据库资源1

Internet的核酸数据库资源 生物信息学系 王珍珍 分子生物学信息数据库 核酸和蛋白质一级结构序列数据库 基因组数据库 生物大分子三维空间结构数据库 上述三类数据库和文献资料为基础构建的二级数据库 第一节 核苷酸一级结构序列数据库 GenBank,DDBJ,and EMBL是当前最全面、规模最大的公共核酸数据库,收录了所有已知的核酸序列。 这3个中心都可以独立地接受数据提交,而3个中心之间则逐日交换信息,并制成相同的充分详细的数据库向公众开放 在这里以 GenBank为例做详细介绍。 一、 GenBank数据库 (一) GenBank的创建及维护 创建于1982年,迅速发展于20世纪90年代 1988年美国成立国立生物技术信息中心(NCBI) 1992,NCBI承担起对GenBank DNA序列数据库的维护责任 。 一、 GenBank数据库 (二) GenBank的数据类型及来源 数据类型 任意长度的cDNA片段 单个外显子 完整的cDNA 任意的基因片段,以致于包涵多个基因的片段 数据来源 个人或大规模测序中心直接递交的数据 通过美国专利和商标局收集注册专利的序列信息 GenBank员工对3400中杂志进行检索 与EMBL,DDBJ等大型数据库每日相互更新 GenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。参考文献还给出其在MEDLINE上的特定标识号。 网址:/Genbank/ 数据检索 (三) GenBank数据库的结构 1.EST数据库 分子生物学的中心法则就是指生物信息从DNA到RNA再到蛋白质,它构成了整个分子生物学的基础, 1.EST数据库 - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。 长度经常介于200bp到500bp之间 /dbEST/index.html 数据的提交 数据的提交 网址:/BankIt/ t 数据的访问形式 访问GenBank - 通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。 另外一种选择是可以用FTP下载整个的GenBank和更新数据。 用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。 通过Entrez Nucleotides来查询。 2.通过ftp来访问dbEST。 /repository/dbEST The following files are stored in this repository: dbEST的数据格式 dbEST的数据格式 gi number (genInfor identifier)是一个唯一标识一个特别序列的整数,每次当序列发生改变时gi编号将发生改变。 但是对应的EST的名字不一定会发生改变。 The following subdirectories exist: FASTA格式 GenBank普通文件格式 — 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。? ASN.1格式 — 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。 FASTA格式 — 定义行号后只跟随序列数据(示例),。 FASTA格式 Fasta格式是一种相当标准的符合生物信息学的输出,很容易读取。 FASTA格式第一行是描述行,第一个字符必须是“”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。 FASTA格式是通常被用于序列比对的标准格式 FASTA格式 FASTA格式 gi|120475024|gb|DV935719.1|DV935719 ART1 Lycopersicon esculentum cDNA Solanum lycopersicum cDN

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档