- 4
- 0
- 约7.96千字
- 约 32页
- 2017-05-29 发布于北京
- 举报
蛋白质序列分析 王兴平 3 .1 蛋白质数据库介绍 3 .2 蛋白质序列分析 3 .3 蛋白质序列分析及结构预测策略 3 .4 一级结构的预测 3 .5 二级结构预测方法 3 .6 其他序列分析工具 3 .7 三级结构预测 3 .8 蛋白质家族分析 3 .1 蛋白质数据库介绍 蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构以及四级结构。依据这种结构层次, 将蛋白质数据库分为: 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释; 蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列; 蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质的结构测量数据为主; 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中又有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。 3 .1 蛋白质数据库介绍 特征: 这些数据库种类有差别, 但内部是相互联系的, 每个数据库都有指针指向其他数据库, 而且数据库之间的序列以及相应的结构是共享的, 同一种蛋白质依次会出现在不同的数据库, 这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息, 这些数据库是融序列信息的索取、处理、存储、输出于一身的。 3.1.1 蛋白质序列数据库 1. PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) PIR 的建立源于20 世纪60 年代Margaret O . Dayhoff 从事的蛋白质进化关系的研究工作, 起初的想法是通过对蛋白质序列信息资源全面、高质、合理的编制来协助计算生物学以及基因组学的研究。 现在PIR 由美国国家生物医学研究基金支助, 隶属于Georgetown 大学医学中心。由PIR、MIPS ( Munich Information Center for Protein Sequence,MIPS) 以及JIPSD( Japan International protein Sequence Database , JIPSD) 协作建立并维护的PIR 国际蛋白质序列数据库( PSD) , 它是目前国际上最大的公共蛋白质序列数据库。 3.1.1 蛋白质序列数据库 PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。 以PIR-PSD 为基础, PIR 还衍生出PIRNREF、iPROClass 以及其他PIR 辅助数据库, 为基因组学和蛋白质组学提供了从序列到结构直至功能的完整分析工具。 网址:/pirwww 课堂演示,网页及认识数据库内容。 3.1.1 蛋白质序列数据库 2. SWISS-PROT/ TrEMBL数据库( /swissprot ) SWISS-PROT 数据库是经注释的蛋白质数据库, 始建于1986 年, 现在由瑞士生物信息研究所(Swiss Institute of Bioinformatics, SIB) 和欧洲生物信息研究所( European Bioinformatics Institute, EBI) 共同维护。 它是ExPASy 网站的一部分, 数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。 3.1.2 模体以及结构域数据库 1. 模体数据库 (1)PROSITE 蛋白质家族及结构域数据库( /prosite/ ) PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分析数据库。 PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱( profile) , 能更敏感地发现序列中的信息。 3.1.2 模体以及结构域数据库 (1)PROSITE 蛋白质家族及结构域数据库( /prosite/ )
原创力文档

文档评论(0)