生物医学数据采集与集成系统需求说明书及相关探究.docVIP

下载本文档

5
0
约2.41千字
约 7页
2017-08-31 发布于湖北
举报
版权申诉

生物医学数据采集与集成系统需求说明书及相关探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物医学数据需求说明书引言编写目的本需求规格说明书旨在将课题组的需求明确表达界定出来，提交软件开发人员作为系统开发的依据。课题组已明确了生物医学数据集成系统的基本架构，具体实施的技术路线和模块的划分，现需要将实现方法进行细化，以解决课题提出的研究问题。背景待开发的软件系统的名称：生物医学数据本课题的任务提出者和设计者：“基于Linked Data的生物医学知识关联发现方法研究”课题组定义 ETL：采集到本地的数据，面临如何统一存储的问题。ETL用来描述将数据从来源经过萃取（extract）、转置（transform）、加载（load）至的过程。数据集成：数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而支持数据共享与利用。目前通常采用联邦检索式、数据仓库等方法来构造集成的系统，这些技术分别适用于不同的数据集成场合。参考资料以下所列的参考资料是本需求规格说明书的依据。《软件需求说明书》GB856T--88 《实用软件工程》（第二版），郑人杰，殷人昆，陶永雷，清华大学出版社，1997年4月。科学数据共享工程技术标准 SDS/T 2112-2004 中国科学院数据应用环境建设和服务-科学数据库核心元数据标准, TR-REC-014 国家科技基础条件平台-资源核心元数据(征求意见稿) GB/T 30523-2014 项目概述项目目标项目工程建设目标本将实现一个基于生物医学开放数据的数据集成系统，该系统可以支持对生物医学领域大规模数据的集成揭示，面向“药物基因组学”领域的核心元数据进行数据的组织，辅助生物医学。技术目标（1）总体目标：构建生物医学数据集成检索系统。（2）具体开发目标：基因、蛋白、药物、疾病；；；。项目现状调研已经完成，初步的核心元数据与统一数据模型已经完成设计，工具选择和技术方案已经明确，需要实现。项目开发原则系统开发遵循开放性、灵活性、标准性、可扩展性的原则。系统具有可扩展性，支持其他类型的数据集成扩展。系统安全性好、可靠性高，保证提供大容量的、稳定的数据查询与分析。系统具有开放性，数据和程序接口封装，支持外部访问。用户的特点 “药物基因组学”系统服务的目标对象是“药物基因组学”领域的科研人员。条件与限制在系统建设中的有利条件是：Web上可以获取大量的开放生物医学数据资源，有效支持了本课题的数据整合和集成揭示研究。在系统建设或运行中的限制是：源数据本地化存取具有规模和速度上的局限性，大规模的数据无法完全本地化，故抽取了部分核心数据作为集成揭示数据，其余数据内容通过链接实现数据发现。功能需求根据“药物基因组学”领域数据的特点，本课题设计了BioLinkHub系统的总体框架，区分了不同开发模块，如图1所示。图1 “药物基因组学”数据集成系统BioLinkHub的总体框架基于此框架中的模块功能， BioLinkHub系统在本阶段需要开发的功能有：数据对象分为5类：基因、蛋白、药物、疾病和化合物。需要采集入库的资源分别是： 1 PDBeChem 2 ChEBI 3 Ensemble 4 DIP 5 GeneCards 6 HGNC 7 PDB 8 GI 9 MIM 10 ICD-10 11 PubChem Compound 12 PubMed 13 EMBL 14 MINT 15 PIR-PSD 16 D 17 HMDB 18 OMIM 19 KO 20 neXtProt 21 Pfam 22 PIRSF 23 Mesh 24 NCI 25 MedDRA 26 Metacyc 27 Entrezgene 28 PharmGKB 29 CleanEx 30 DPD 31 UMLS 32 Uniprot 33 Disease Ontology 34 PubChem Substance 35 GO 36 GenomeRNAi 37 Genebank 38 Wikipedia 39 RxList 40 GeneWiki 41 DMDM 42 KEGG 43 ChemSpider 44 Pdrhealth 45 DrugBank 46 Snomed 47 NDFRT 异构数据解析以上47个数据库分别采用不同的原始格式存储数据，为了实现高效的本地存储，以及后续的统一数据表示和关系组织，需要将其原始格式分别进行解析，存储在本地关系数据库中。目前处理的数据格式分别有txt, csv, mysql, xml等。统一数据模型构建基于类数据对象的核心元数据构建统一的数据存取结构，支持核心数据内容的快速访问和集成揭示。（1）核心元数据：定义基因、蛋白、药物、疾病的核心元数据提取相应数据集中的数据内容，针对已入库到本地的数据集构建源数据库