蛋白同质结构分析原理及工具-文献综述.docVIP

  • 17
  • 0
  • 约 5页
  • 2018-12-01 发布于浙江
  • 举报

蛋白同质结构分析原理及工具-文献综述.doc

蛋白同质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具 (南京农业大学生命科学学院 生命基地111班) 摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。 关键词:蛋白质;结构预测;跨膜域;保守结构域 1 蛋白质相似性检测 蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能[1]。因此,推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。 表一 常用蛋白质数据库 数据库 说明 链接 蛋白序列数据库 GenPept Translations of GenBank coding nucleotide entries /Genbank/ PIR International protein database / RefSeq Curated, non-redundant with expert annotation /RefSeq/ UniProt/SwissProt Reviewed, manually annotated entries /help/uniprotkb UniProt/TrEMBL Automatically classified and annotated entries /help/uniprotkb 蛋白质分类数据库 CATH Proteins classified based on class, architecture, topology and homology / SCOP Structural classification of proteins http://scop.mrc-lmb.cam.ac.uk/scop ProtClustDB Proteins classified based on sequence similarity /proteinclusters 蛋白质结构数据库 PDB Resolved 3D biomolecular structures /pdb 网址可能有更新 氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。 序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了Smith-Waterman算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具 表二 成对序列相似性比对搜索工具 工具 说明 链接 BLAST Basic local alignment search tool /Blast.cgi FASTA Global alignment search tool; http://www.ebi.ac.uk/Tools/fasta33/ GGSEARCH Global alignment search tool http://www.ebi.ac.uk/Tools/fasta33/ index.html?program=GGSEARCH SSEARCH-Protein Local alignment search tool against proteins http://www.ebi.ac.uk/Tools/fasta33/ index.html?program=SSEARCH 网址可能有更新 2 蛋白质一级结构分析(含保守结构域) 蛋白质结构的基本信息来源于它的一级结构,分析蛋白质一级结构的第一步是将它们分成其组成部分,然后处理每个部分的结构[4]。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的[5, 6]。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的,这些数据库通常被称为“特征数据库(signature databases)”。“基序(Motifs)”通常指没有间隔的多序列队列,通常由10-20个氨基酸

文档评论(0)

1亿VIP精品文档

相关文档