GSA和BIGD—填补我国生物信息资源服务的空白.PDFVIP

下载本文档

9
0
约 5页
2017-04-26 发布于天津
举报
版权申诉

GSA和BIGD—填补我国生物信息资源服务的空白.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

GSA和BIGD—填补我国生物信息资源服务的空白.PDF

GSA 和 BIGD — 填补我国生物信息资源服务的空白北京大学生命科学学院、北京大学国家蛋白质和植物研究重点实验室、北京大学生物信息中心，北京 100871， luojc@ Genomics Proteomics and Bioinformatics 期刊（GPB）2017 年第一期发表了一篇数据库专题论文“基因组序列归档库”（Genome Sequence Archive, 简称 GSA）[1]。作者来自中国科学院北京基因组研究所大数据中心（Big Data Center, Beijing Institute of Genomics, 简称 BIGD），文中对他们开发的 GSA 平台作了简要介绍。该平台旨在收集、整合和发布国内外用户递交的原始序列数据。GSA 项目是基因组所大数据中心正在进行的几个主要研究开发项目之一，该中心由近 50 位年轻的生物信息学研究开发人员组成。除 GSA 项目外，还开展了多项面向生物信息资源服务的课题[2]。应 GPB 编辑部邀请，笔者写了一篇短文，简单回顾国际生物信息数据库创建历史，并向读者推荐 GSA 平台和 BIGD 团队的工作。文章以 Preview 形式发表在同一期的 GPB 上，原文为英文[3]；特撰写此中文稿，以飨国内读者。最近半个多世纪以来，分子生物学取得了长足的进展。DNA 双螺旋的发现、遗传密码的破解、中心法则的提出，为分子生物学研究奠定了坚实的理论基础。与此同时，费雷德里克·桑格（Frederick Sanger）等先后建立了蛋白质、tRNA 和 DNA 序列测定方法，约翰·肯德鲁（John Kendrew）和马克斯·佩鲁茨（Max Perutz）解决了 X-射线晶体衍射解析蛋白质三维空间结构的难题。这些开拓性的研究，为日后分子生物学数据积累提供了必不可少的技术储备。蛋白质序列数据库最早从事蛋白质序列收集的是美国国家生物医学研究基金会（National Biomedical Research Foundation，简称 NBRF）的生物信息学先驱玛格蕾特·戴霍芙（Margaret Dayhoff）博士（/wiki/Margaret_Oakley_Dayhoff）。1965 年，她把当时能收集到的 65 个蛋白质信息编纂成???，并以《蛋白质序列和结构图册》（ Atlas of protein sequence and structure）为名公开发表，并在以后的几年中不断更新再版。这就是国际上第一个蛋白质序列数据库“蛋白质信息资源”（Protein Information Resource，简称 PIR）的雏形。基于收集到的蛋白质家族序列，戴霍芙构建了氨基酸替换计分矩阵 PAM，至今仍广泛用于序列比对和数据库相似性搜索。PIR 于 1984 年正式上线，用户可通过电话网络进行查询。两年后，瑞士日内瓦大学在读研究生埃姆斯·贝洛克（Amos Bairoch）开始对蛋白质序列进行人工注释（/wiki/Amos_Bairoch），为每个序列条目添加功能和相关文献等信息，并在此基础上创建了著名的“瑞士蛋白质序列数据库”（ Swiss-Prot）。 1 蛋白质结构数据库第一个蛋白质结构数据库（Protein Data Bank，简称 PDB）创建于 1971 年。与蛋白质序列数据库分别诞生于美国和欧洲不同，PDB 的建立是欧美两国合作者共同努力的结果。 1971 年，英国剑桥晶体学数据中心（Crystallographic Data Center）和美国布鲁克海文国家实验室（Brookhaven National Laborato