- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
生物信息学
Bioinformatics
王鹏
生物信息学2-数据库
上节回顾
序列数据资源
•数据库基础知识:分子数据库分类;
•序列储存基础格式:FASTA格式;
•常用数据库:NCBI及其GBFF各标识意义。
1.1数据库基础知识
分子生物数据库的分类
一级数据库
概念:数据直接来源于实验获得的原始数据,只经过
简单的归类整理和注释。
包含:基因组数据库、
核酸序列数据库、
蛋白一级结构序列数据库、
生物大分子三维空间结构数据库(主要为蛋白质)
二级数据库
概念:对原始生物分子数据进行整理、分类的结果,是在
一级数据库、实验数据和理论分析的基础上针对特定的应用
目标而建立的。
包含:种类繁多:真核生物启动子序列库EPD;功能模体(motif)数据库
PROSITE
1.2序列数据储存格式
FASTA格式命名规则
1、以大于号“”起始;
2、标题行(asingle-linedescription)位于文件的第
一行,(中英);
3、序列行随后,序列行中不允许有空位;
4、核苷酸字符大小写均可,氨基酸字符应大写;
1.2序列数据储存格式
FASTA格式命名规则
5、“-”单个连字符表示一个空位“gap”
6、序列中不允许有数字、不明确的核苷酸用N表
示,氨基酸用X表示
7、氨基酸序列中“*”表示终止
1.3常用数据库
GenBank数据库文件格式
GBFF(GenBankFlatFile)
GBFF是GenBank数据库的基本信息单位,
是使用最为广泛的生物信息学序列格式之
一。这三大数据库交换数据都是采用的这
个格式。
LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999
DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p
(AXL2)andRev7p(REV7)genes,completecds.
ACCESSIONU49845
VERSIONU49845.1GI:1293613描述符
KEYWORDS.
SOURCESaccharomycescerevisiae(bakersyeast)(包含整个记录的信息)
ORGANISMSaccharomycescerevisiae
Eukaryota;Fungi;Ascomycota;Saccharomycotina;Saccharomycetes;
Saccharomycetales;Saccharomycetaceae;Saccharomyces.
REFERENCE1(bases1to5028)
AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.
TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredfor
DNAdamage-inducedmutagenesisinSaccharomycescerevisiae
JOURNALYeast10(11),1503-1509(1994)
PUBMED7871890
FEATURES
文档评论(0)