生物信息学2-数据库.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

生物信息学

Bioinformatics

王鹏

生物信息学2-数据库

上节回顾

序列数据资源

•数据库基础知识:分子数据库分类;

•序列储存基础格式:FASTA格式;

•常用数据库:NCBI及其GBFF各标识意义。

1.1数据库基础知识

分子生物数据库的分类

一级数据库

概念:数据直接来源于实验获得的原始数据,只经过

简单的归类整理和注释。

包含:基因组数据库、

核酸序列数据库、

蛋白一级结构序列数据库、

生物大分子三维空间结构数据库(主要为蛋白质)

二级数据库

概念:对原始生物分子数据进行整理、分类的结果,是在

一级数据库、实验数据和理论分析的基础上针对特定的应用

目标而建立的。

包含:种类繁多:真核生物启动子序列库EPD;功能模体(motif)数据库

PROSITE

1.2序列数据储存格式

FASTA格式命名规则

1、以大于号“”起始;

2、标题行(asingle-linedescription)位于文件的第

一行,(中英);

3、序列行随后,序列行中不允许有空位;

4、核苷酸字符大小写均可,氨基酸字符应大写;

1.2序列数据储存格式

FASTA格式命名规则

5、“-”单个连字符表示一个空位“gap”

6、序列中不允许有数字、不明确的核苷酸用N表

示,氨基酸用X表示

7、氨基酸序列中“*”表示终止

1.3常用数据库

GenBank数据库文件格式

GBFF(GenBankFlatFile)

GBFF是GenBank数据库的基本信息单位,

是使用最为广泛的生物信息学序列格式之

一。这三大数据库交换数据都是采用的这

个格式。

LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999

DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p

(AXL2)andRev7p(REV7)genes,completecds.

ACCESSIONU49845

VERSIONU49845.1GI:1293613描述符

KEYWORDS.

SOURCESaccharomycescerevisiae(bakersyeast)(包含整个记录的信息)

ORGANISMSaccharomycescerevisiae

Eukaryota;Fungi;Ascomycota;Saccharomycotina;Saccharomycetes;

Saccharomycetales;Saccharomycetaceae;Saccharomyces.

REFERENCE1(bases1to5028)

AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.

TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredfor

DNAdamage-inducedmutagenesisinSaccharomycescerevisiae

JOURNALYeast10(11),1503-1509(1994)

PUBMED7871890

FEATURES

文档评论(0)

良渚. + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档