- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 生物数据库介绍; 数据库〔database〕是存储在某种存储介质上的相关数据的有组织的集合。
存储生物大分子信息数据的数据库称为分子生物学数据库〔molecular biology database〕,也称生物信息学数据库〔bioinformatics database〕。
数据库,特别是分子生物学数据库,具有三个特征:〔1〕数据库是可以检索的,即具有检索〔index〕功能;〔2〕数据库应该是定时更新的,即不断有新版内容发布〔release〕;〔3〕数据库是交叉引用的〔cross-referenced〕,特别是在互联网时代,数据库应该通过超链接〔hyperlinks〕与其他数据库相连。;生物信息学数据库的分类:;一级数据库;二级数据库;生物信息学数据库;建立分子生物信息数据库的流程图;contents;2.1序列数据库;三大核酸序列数据库;;GenBank收录的物种;GenBank中20种测序最多的物种〔09年8月15日发布的第173.0版〕;Type of Record ;Type of Record ;What is an accession number?;GenBank; 2.1.1.2 EMBL(欧洲分子生物学实验室,EMBL);EBI;EMBL;2.1.1.3 DDBJ(日本国家遗传学研究所,NIG);DDBJ;;例如;三大数据库之间的联系;国际核酸序列数据库协会;;;BioSino网页;2.1.2 两大蛋白质数据库;;〔1〕从核酸数据库经过翻译推导而来;
〔2〕从蛋白质数据库PIR挑选出适宜的数据;
〔3〕从科学文献中摘录;
〔4〕研究人员直接提交的蛋白质序列数据。;SWISS-PROT;2.1.2.2 PIR蛋白质数据库;PIR;;UniProt数据库主页;2.2基因组数据库;NCBI中集成的Genome数据;人类基因组数据库;既是一个数据库,又是一个数据库管理系统。
提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。
数据内容:
限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…;拟南芥基因组数据库;;家蚕基因组数据库;;水稻基因组数据库;;家鸡基因组数据库;;果蝇基因组数据库;;线虫基因组数据库;;玉米基因组数据库;;局部生物基因组方案网址;2.3结构数据库;PDB;2.3.2 PROSITE (蛋白质序列功能位点数据库);PROSITE;;2.3.3 SCOP;SCOP主页;;2.3.4 COG;COG;2.3.5 河北大学蛋白质数据库HPDB;2.4功能数据库;京都基因和基因组百科全书(KEGG);KEGG;;DIP;2.4.3 ASDB;2.4.4 TRRD;TRRD;2.4.5 TRANSFAC;从1994年开始,?核酸研究?〔Nucleic Acid Research〕杂志每年第一期为生物学数据库专集,介绍各种生物学数据库,这一期是免费的。
;2.5根本序列数据库注释及序列格式;EMBL标识字;例如;以GenBank中的一个水母绿色荧光蛋白基因为例;;;SWISS-PROT数据库种主要字段含义;ID;序列格式;但由于EMBL和GenBank数据格式较为复杂,所以为了分析方便出现了十分简单的FASTA格式。
FASTA格式又称Pearson格式,Pearson是FASTA的主要作者。该格式要求序列的标题行以大于号“〞开头, “〞后面一般是序列名称或序列描述,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。多条序列格式即将该格式连续列出即可。;;例2:
insect sod1〔序列名称或序列描述〕
TAGTTATGCC AGGATAAGTA GCAGGTTTGG TATAGTAACA GACTGAACCT ACCTAAAGGA(序列)
insect sod2 〔序列名称或序列描述〕 GGGGGGCCCCCCCTTTGGGGGTTTTTAATTTCCCCCCCCCCCTTTTAAAAAAA〔序列〕;生物信息学中用到的其它格式还有许多,不同的格式有不同的要求,除前面讲的FASTA格式外,其它格式较难手工制作,需要时建议寻找格式转换软件。;
文档评论(0)