GSA组学原始数据库系统-Genomics,ProteomicsBioinformatics.PDFVIP

下载本文档

124
0
约6.18千字
约 6页
2017-11-18 发布于天津
举报
版权申诉

GSA组学原始数据库系统-Genomics,ProteomicsBioinformatics.PDF

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

GSA组学原始数据库系统-Genomics,Proteomicsamp;Bioinformatics.PDF

GSA：组学原始数据库系统王彦青，宋福海，朱军伟，张思思，杨亚东，陈婷婷，唐碧霞，董丽莉，丁楠，张倩，白周现，董绪浓，陈焕新，孙明远，翟爽，孙玉彬，于磊，蓝利，肖景发，方向东*，雷红星*，章张*，赵文明* 中国科学院北京基因组研究所，北京100101；中国科学院大学，北京100049；复旦大学，上海200438 ；北京脑疾病研究所，北京100053 *通讯作者E-mail: fangxd@, leihx@, zhangzhang@, zhaowm@. 生命科学的发展已进入组学大数据时代，然而中国至今尚未形成可服务于科学研究的公共数据库存储体系。为了弥补这一空白，中国科学院北京基因组研究所生命与健康大数据中心开发并构建了组学原始数据存储归档系统 Genome Sequence Archive （简称GSA ；/gsa 或）。GSA 的系统建设遵循了国际核酸序列共享联盟（International Nucleotide Sequence Database Collaboration, INSDC ）的相关标准，并作为INSDC 的补充，旨在减轻国际相关数据库数据存贮及数据传输的压力；立足中国，服务全球。引言第二代高通量测序技术革新推动了生命科学研究的纵深发展与应用，尤其在人口与健康领域，世界众多国家相继启动了大型研究计划，如美国的精准医学研究计划 [1]、英国万人基因组计划 [2]、冰岛人群基因组计划 [3]、中国精准医学研究计划 [4]等。这些研究计划都将产生大量的组学数据，从而导致了生命健康组学大数据的爆炸性增长。与此同时，数据存储、整合与挖掘、转化与应用将成为重要的技术问题与挑战[5,6]。国际上，美国、欧洲和日本于 2005 年建立了国际核酸序列共享联盟（INSDC ） [7]，包括NCBI [8]、EBI [9]和 DDBJ [10]三大数据库系统，形成领域内数据存储和共享使用的标准，接收并存储来自全世界科学家提交的组学数据。然而，中国是一个生物资源大国，也是一个数据产出大国；迫于学术论文的发表及学术期刊的要求，中国的科学家需要将大量的数据跨过海底线缆，提交到国际数据库。但由于中国国际网络出口带宽的瓶颈问题，数据传输效率低下。以中国科学院北京基因组研究所的150Mbs 出口带宽为例，向NCBI 数据库递交 1TB 的数据需要花费2 周以上的时间。当前，中国已经启动国家级的精准医学研究计划以及若干大型的具有地域特色的研究任务。可以预见，未来中国每年将产生数十 PB 的组学数据；这将为目前的数据传输、存储与共享提出新的挑战。为了缓解上述困难和问题，中国科学院北京基因组研究所开发并构建了组学原始数据库系统 Genome Sequence Archive （简称 GSA ；/gsa 或），专注于组学原始数据收集与整合，并提供免费的数据存储、共享与访问服务[11]。GSA 遵循国际INSDC 的数据标准及数据库建设标准，可收集来自不同测序平台产出的数据，并存储序列数据及其对应的元数据信息，确保数据的完整性。 GSA 立足于中国，极大的方便了中国科学家的数据递交；同时，服务于全球，为全世界的科研领域共享并贡献数据。数据库内容和使用数据结构与模型为了确保与INSDC 数据库系统的兼容性，GSA 遵循了INSDC 数据库系统的数据标准和数据结构，并将数据分为四类，即项目信息（BioProject ）、样本信息（BioSample ）、实验信息（Experiment ）和测序信息（Run ）；数据结构如图 1 所示。图1 GSA 数据模型项目信息的数据获取号（Accession Number ）以“PRJCA ”为前缀，其中字母 “C ”表示中国。项目信息提供了一个针对本研究任务的概要性描述，并包括研究目的、涉及的物种、数据类型、数据递交者、基金资助机构、发表的文章等信息。样本信息的数据获取号以 “SAMC ”为前缀，包含一些有关生物样本的描述信息如样本类型、样本属性等。实验信息以“CRX”为前缀，为特定样本实验处理方式，包括实验目的、文库构建方式、测序类型等信息。测序信息的数据获取号以 “CRR ”为前缀，内容主要包括测序文件和对应的校验信息。在四类数据中，项目信息和样本信息是独立运行的模块，而实验信息和测序信息形成了测序