- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 分子生物信息数据库 一、 分子生物信息数据库简介 (二)、序列数据库 1、核酸序列数据库 (1)欧洲分子生物学实验室的EMBL(European Molecular Biology Laboratory) http://www.embl-heidelberg.de (2)美国生物技术信息中心(National Center for Biotechnology Information)的GenBank /Web/Genbank/index.html (3)日本遗传研究所的DDBJ (DNA Data Base of Japan) http://www.ddbj.nig.ac.jp/ 2、EMBL和GenBank数据库格式 除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; 注释包括: (A)蛋白质的功能描述;(B)特殊位点和区域 ,如钙结合区域、ATP结合位点等; (C)与其它蛋白质序列的相似性;(D)序列残缺与疾病的关系; (三)、 结构数据库 1、PDB(Protein Data Bank) PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构 蛋白质 核酸 糖类 蛋白质和核酸复合物 一种是显式序列信息(explicit sequence) 在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。 一种是隐式序列信息(implicit sequence) PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。 2、蛋白质结构分类数据库 DSSP(http://www.sander.embl-heidelberg.de/dssp/) 对生物大分子数据库PDB中的任何一个蛋白质,根据其PDB中的原子坐标,计算氨基酸残基的二级结构构象参数。 同源蛋白质数据库HSSP HSSP(http://www.sander.embl-heidelberg.de/hssp/) 数据来源于PDB,或来源于SWISS-PROT 对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列进行对比,从而将相似序列的蛋白质聚集成结构同源的家族。 HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。 三 其它生物分子数据库 基因组水平上由单个核苷酸的变异引起的DNA序列的多态性 单核苷酸多态性SNPs(Single nucleotide polymorphisms) SNPs对人类遗传学研究和医学应用具有重要的意义 无论对于人类种群遗传学的研究,还是对疾病易感性状分析或个体化医疗,都需要深入地研究SNPs。 2、生物、医学文献数据库PubMed PubMed是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE(生物医学文献数据库)等文献数据库的引用查询和对大量网络科学类电子期刊的链接。 利用Entrez系统可以对PubMed进行方便的查询检索。 3、目录数据库DBCat DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类: DNA RNA 蛋白质 基因组 图谱 蛋白质结构 文献著作等基本类型, DBCat中各类数据库个数 在SWISS-PROT中,数据分为核心数据和注释两大类。 核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描述) (1)注释 Identification,序列的标识符行; Accession number,登录号行; Description,序列描述行; Organism species,描述生物体种属; Organnism classification, 描述生物体分类信息; Reference number,描述参考文献的编号; Reference authors,描述参考文献的作者; Reference title,描述 参考文献的题目; Reference location,描述参考文献的出处; Gene name,基因名称; Date,创建和更新日期行; Reference position,参考文献涉及内容; Cross-references,参 考文献的MEDLINE号; (2)最小冗余 尽量将相关的数据归并,降低数据库的冗余程度。 如
文档评论(0)