PENG Wei - 生物信息学.DOC

下载文档

1
0
约6.4千字
约 4页
2017-08-05 发布于天津
举报
版权申诉
保障服务

PENG Wei - 生物信息学.DOC

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PENG Wei - 生物信息学

02级生物技术系彭薇 021402157 MetaFam服务器：一种全面的蛋白家族资源 Kevin A. T. Silverstein, Elizabeth Shoop, James E. Johnson, Alan Kilian, John L. Freeman, Timothy M. Kunau, Ihab A. Awad, Margaret Mayer and Ernest F. Retzel Computational Biology Centers, Academic Health Center, University of Minnesota, Mayo Mail Code 43, 420 Delaware Street, SE Minneapolis, MN 55455-0312, USA 收到于2000年8月28日，修订和接受于2000年9月13日。文摘 MetaFam是蛋白家族信息的一个全面的有关联的数据库。这种易于获取的网络资源是从若干种一级序列和二级蛋白家族数据库中集成得到的。通过从这些完全不同的来源集中信息，MetaFam能够提供最全面的可供使用的蛋白家族。用户可以使用一个功能强大的图形显现工具，MetaFamView,研究一级和二级数据库间的相互联系。另外，用户能在序列数据库中识别相应的序列条目，在家族数据库中对相应的家族（和他们的序列成员）获得迅速的总结，甚至试图把他们自己的未指定序列分类。同时提供全球的家族数据库的统计和信息。向公众提供的数据可以在/获取使用。引言在这大规模基因组工程的时代，未知蛋白序列的分类是一个至关紧要的问题。在浏览数据库发布时，遇到很多种不同蛋白家族分类法并不少见。每一种数据库都使用不同的方法定义家族成员。PROSITE (1) 按照有规则的表达模式和外形划分家族。Blocks (3) 和 PRINTS (4) 都使用一组没有差距的特殊位置痕迹矩阵（PSSMs）来模拟代表一个家族的保守区域；Pfam (5)使用隐藏的马尔代夫模型（HMMs），是PSSMs和有差距的外形的统计学概括。PIR (8) 和 SBASE (9)雇用专业管理者分析序列相似结果和其他数据。最后，DOMO (10,11), ProDom (12) 和 PROTOMAP (13)都利用充分自动化的算法建立序列相似性协议。这种方法产生了一套多样化的家庭界定。令人惊奇的是，在它们之中存在着值得注意的一致性和互补性。为了在蛋白质中找到一个具体的蛋白质或家族，依次参考这些互补性的数据库是必须的，需要从每一个数据库收集期望的信息。而使用这种方法充分比较每一个数据库中的家族是非常困难的。为了帮助研究者，我们已经建立了一种统一的资源，MetaFam，来用作这套丰富的补充公众数据的出发点。例如，MetaFam 把每一个家族数据库中关于葡萄糖-1，6-二磷酸的概念收集到一起，建立一个单独的超级家族。一个方便的图形显现工具可以使使用者同时观看超级家族中每个家族的特征，它们的重叠部分，它们的成员，和每个成员充分的体系结构范围（被每一个家族数据库所定义）。用于建立MetaFam ( 14,15 )的方法是自动化的。因而我们可以频繁的提供更新。在MetaFam服务器中，用户也可以尝试分类自己的序列。我们已经通过一种称为PANAL (16)的工具把从很多数据库中通过自然搜索程序得到的结果一体化。在本文中，我们描述这些通过MetaFam服务器而被访问的工具。非多余的蛋白质装置为了在各类家族数据库中适当的关联蛋白质间的成员关系，我们把所有的蛋白质标识序列翻译成了一套非多余的蛋白质序列钥匙。特别的，在SWISS PROT和TrEMBL ( 17 )，GenPept ( 18 )，PIR和NRL3D ( 19 )中找到的相同序列被用来标识这些非多余的钥匙。 MetaFam超级家族 MetaFam尝试把在家族数据库中的所有相关蛋白家族分组在一起。从而允许用户着重于一个特殊的家族，同时可以比较不同分类方法的结果。MetaFam的中心实体被称为超级家族。例如，代表enolase家族的超级家族，包括一组来自各个数据库的enolase家族，和来自每个enolase家族序列域成员的集合。一对在超级家族中相关的家族可以通过相交成员的百分比被识别。由于命名冲突的可能性，我们避免使用文字上的描述来使之相匹配。 PANAL：一种用于蛋白质序列分析的综合的资源用户常常希望把他们自己的非特征序列分类。一些蛋白质家族数据库提供通过他们自己的方法来寻找结构和范围的软件（例如，剖面图，HMMs）。这些程序在很多的站点出现，通过不同的格式输出结果。我们已经在站点上安装了一些这样的程序，并且提供单一的界面