- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向微生物领域的大规模知识图谱研究.PDF
面向微生物领域的大规模知识图谱研究
—国家重点研发项目“科学大数据管理系统”
2016 年,科技部依据 《国家中长期科学和技术发展规划纲要 (2006-2020 年)》、 《关
于促进云计算创新发展,培育信息产业新业态的意见》、《国务院关于印发促进大数据发展
行动纲要的通知》等文件,会同相关部门组织开展了 《云计算和大数据重点专项实施方案》
编制工作,并在此基础上启动 “云计算和大数据重点专项”2016 年度项目。该专项的总体
目标是形成自主可控的云计算和大数据系统解决方案、技术体系和标准规范;在云计算与大
数据的重大设备、核心软件、支撑平台等方面突破一批关键技术;基本形成以自主云计算与
大数据骨干企业为主体的产业生态体系和具有全球竞争优势的云计算与大数据产业集群;提
升资源汇聚、数据收集、存储管理、分析挖掘、安全保障、按需服务等能力,实现核心关键
技术自主可控,促进我国云计算和大数据技术的研究与应用达到国际领先水平,加快建成信
息强国。
科学大数据管理系统即面向特定领域的大数据管理系统是该专项之下的项目之一。随着
大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据,使
得全球科技创新进入科学大数据时代。科学大数据的管理与分析水平,是能否在未来分秒必
争的重大科学发现中胜出的关键。同时,科学大数据管理面临一系列问题和挑战,主要表现
在: (1)超大规模关系数据管理; (2)多源数据关联和知识发现; (3)科学计算的高效
数据处理。
一、 研究背景
生命科学领域100 亿级RDF 知识图谱数据来源于上百个分布在全球的不同数据源,包
括欧洲生物信息研究所、美国国家人类基因组研究中心以及由中国科学院微生物研究所牵头
的世界微生物数据中心等。其中,由中科院微生物所牵头的世界微生物数据中心(Word Data
Center for Microorganism,WDCM)隶属于国际生命科学联盟下属的世界微生物菌种保藏联
合会和国际教科文组织下属的国际微生物资源中心。2010 年,该数据中心落户中科院微生
物研究所。这是我国生物学领域的第一个世界数据中心,也是国际生物学领域第一个设立在
发展中国家的世界数据中心。如何进一步充分利用现有计算机技术,挖掘微生物大数据乃至
科学大数据中的巨量信息成为亟待解决的问题之一。
“图数据管理关键技术及系统”课题面向大规模图数据管理需求,研究图数据索引方法
和查询优化策略,分布式系统设计及联邦查询方法,图数据交互式检索和分析。其围绕图数
据管理的核心问题,以微生物大数据为应用背景,研究海量图数据的索引方法和查询优化策
略,实现基于结构感知的高通量、并行化的图模式查询;研究基于数据划分的分布式系统设
计及联邦查询方法,实现跨地域多节点的分布式RDF 图数据管理;研究并实现图数据的交
互式检索和分析。
二、 研究意义
通过本课题的研究,计划实现一个高效的大规模科学RDF 知识图谱数据管理系统。这
- 23 -
个系统能支持在生命科学领域中对关于生物资源、文献、序列和疾病等内容的100 亿级关联
数据上进行知识发现和“六步”以上的关联挖掘。这个系统还能支持对分布在全球各个科研
机构的跨地域、多中心RDF 知识图谱网络进行统一的检索与查询。这个系统能极大地协助
中科院微生物所牵头的国际微生物中心进行更加高效的研究,进而加快我国在生命科学研究
领域的研究发展。
此外,本系统还支持构建RDF 知识图谱服务平台来辅助国际微生物中心将自身的研究
成果以RDF 知识图谱的形式进行发布并提供浏览和查询接口服务。这将极大地提高我国在
生命科学研究领域的影响力。
另外,随着生物技术的日益发展,特别是测序技术的迅猛发展,目前微生物学的研究已
经全面步入基因组研究时代。随之而来的便是对大规模数据有效应用的需求。传统的数据分
析方法很难配备生命科学的数据产生速度和对数据分析的需求,因此,对面向生物技术发展
和产业应用的大规模数据分析已经成为必然。本课题采用了先进的数据管理及分析技术,将
极大地帮助生物学家从数据中挖掘宝贵的财富,更好地用好这笔资源,从而推动生物技术进
步和生物产业发展。
三、 研究内容
本课题的主要研究内容包括四个方面,即基于图结构的索引和查询优化策略、分布式
RDF 知识图谱数据管理系统构建、RDF 知识图谱数据上的分布式大规模知识并行推理框架研
究以及面向海量图数据的交互式检索和分析平台。
文档评论(0)