- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物医学数据需求说明书
引言
编写目的
本需求规格说明书旨在将课题组的需求明确表达界定出来,提交软件开发人员作为系统开发的依据。
课题组已明确了生物医学数据集成系统的基本架构,具体实施的技术路线和模块的划分,现需要将实现方法进行细化,以解决课题提出的研究问题。
背景
待开发的软件系统的名称:生物医学数据
本课题的任务提出者和设计者:“基于Linked Data的生物医学知识关联发现方法研究”课题组
定义
ETL:采集到本地的数据,面临如何统一存储的问题。ETL用来描述将数据从来源经过萃取(extract)、转置(transform)、加载(load)至的过程。
数据集成:数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而支持数据共享与利用。目前通常采用联邦检索式、数据仓库等方法来构造集成的系统,这些技术分别适用于不同的数据集成场合。
参考资料
以下所列的参考资料是本需求规格说明书的依据。
《软件需求说明书》GB856T--88
《实用软件工程》(第二版),郑人杰,殷人昆,陶永雷,清华大学出版社,1997年4月。
科学数据共享工程技术标准 SDS/T 2112-2004
中国科学院数据应用环境建设和服务-科学数据库核心元数据标准, TR-REC-014
国家科技基础条件平台-资源核心元数据(征求意见稿) GB/T 30523-2014
项目概述
项目目标
项目工程建设目标
本将实现一个基于生物医学开放数据的数据集成系统,该系统可以支持对生物医学领域大规模数据的集成揭示,面向“药物基因组学”领域的核心元数据进行数据的组织,辅助生物医学。
技术目标
(1)总体目标:
构建生物医学数据集成检索系统。
(2)具体开发目标:
基因、蛋白、药物、疾病;
;
;
。
项目现状
调研已经完成,初步的核心元数据与统一数据模型已经完成设计,工具选择和技术方案已经明确,需要实现。
项目开发原则
系统开发遵循开放性、灵活性、标准性、可扩展性的原则。
系统具有可扩展性,支持其他类型的数据集成扩展。
系统安全性好、可靠性高,保证提供大容量的、稳定的数据查询与分析。
系统具有开放性,数据和程序接口封装,支持外部访问。
用户的特点
“药物基因组学”系统服务的目标对象是“药物基因组学”领域的科研人员。
条件与限制
在系统建设中的有利条件是:Web上可以获取大量的开放生物医学数据资源,有效支持了本课题的数据整合和集成揭示研究。
在系统建设或运行中的限制是:源数据本地化存取具有规模和速度上的局限性,大规模的数据无法完全本地化,故抽取了部分核心数据作为集成揭示数据,其余数据内容通过链接实现数据发现。
功能需求
根据“药物基因组学”领域数据的特点,本课题设计了BioLinkHub系统的总体框架,区分了不同开发模块,如图1所示。
图1 “药物基因组学”数据集成系统BioLinkHub的总体框架
基于此框架中的模块功能, BioLinkHub系统在本阶段需要开发的功能有:
数据对象分为5类:基因、蛋白、药物、疾病和化合物。需要采集入库的资源分别是:
1 PDBeChem
2 ChEBI
3 Ensemble
4 DIP
5 GeneCards
6 HGNC
7 PDB
8 GI
9 MIM
10 ICD-10
11 PubChem Compound
12 PubMed
13 EMBL
14 MINT
15 PIR-PSD
16 D
17 HMDB
18 OMIM
19 KO
20 neXtProt
21 Pfam
22 PIRSF
23 Mesh
24 NCI
25 MedDRA
26 Metacyc
27 Entrezgene
28 PharmGKB
29 CleanEx
30 DPD
31 UMLS
32 Uniprot
33 Disease Ontology
34 PubChem Substance
35 GO
36 GenomeRNAi
37 Genebank
38 Wikipedia
39 RxList
40 GeneWiki
41 DMDM
42 KEGG
43 ChemSpider
44 Pdrhealth
45 DrugBank
46 Snomed
47 NDFRT
异构数据解析
以上47个数据库分别采用不同的原始格式存储数据,为了实现高效的本地存储,以及后续的统一数据表示和关系组织,需要将其原始格式分别进行解析,存储在本地关系数据库中。目前处理的数据格式分别有txt, csv, mysql, xml等。
统一数据模型构建
基于类数据对象的核心元数据构建统一的数据存取结构,支持核心数据内容的快速访问和集成揭示。
(1) 核心元数据:定义基因、蛋白、药物、疾病的核心元数据提取相应数据集中的数据内容,针对已入库到本地的数据集构建源数据库
您可能关注的文档
最近下载
- 2023-2024学年辽宁省大连市沙河口区八年级(上)期末数学试卷+答案解析.pdf VIP
- 统编版(2024)七年级下册道德与法治11.1《法不可违》教案 .pdf VIP
- 小学生古诗词大赛试题(附答案).docx VIP
- GPIR复合外模板现浇混凝土保温系统建筑构造.pdf VIP
- 中小学校长选拔笔试试题及参考答案.docx VIP
- 全国计算机等级考试教程二级WPS Office高级应用与设计:电子表格的创建与编辑PPT教学课件.pptx VIP
- 黔西南州企业融资难融资贵主要情况反馈.doc VIP
- 垂径定理练习.3 垂径定理练习.doc VIP
- (已压缩)关于建筑设计防火的原则规定(1960)(OCR).pdf VIP
- 工业与民用建筑抗震设计规范TJ11-78.pdf VIP
文档评论(0)