大数据背景下科学数据互操作实践进展的研究.docVIP

大数据背景下科学数据互操作实践进展的研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据背景下科学数据互操作实践进展的研究

大数据背景下科学数据互操作实践进展的研究   摘 要:文章在梳理科学数据互操作的基本概念和最新研究进展的基础上,重点介绍了欧盟科学数据基础设施建设项目GRDI2020、美国安全数据研究组织IJIS以及医学数据研究所West Health三个不同性质的国际机构对科学数据互操作的实践研究状况,进而指出目前科学数据互操作实践研究中面临的政策落实困难、难以制定共同的标准协议、缺乏定义互操作的共同框架、数据质量低等问题。   关键词:大数据;科学数据;互操作;GRDI2020;IJIS;West Health   中图分类号: G203 文献标识码: A DOI: 10.11968/tsygb.1003-6938.2015069   Abstract Based on the basic concepts and latest research progress of scientific data interoperability, three different international organizations of scientific data interoperabilitys practice conditions are introduced, that is the research data infrastructure project GRDI2020、American safety data research organization IJIS and the medical research institution West Health. The main problems of scientific data interoperability are pointed out.   Key words big data; scientific; data interoperability; GRDI2020; IJIS; West Health   1 引言   大数据时代的计算机和数字设备产生并积累了海量的科学数据,科学研究从独立、小型的学术行会形态转移到大规模、更加互联和开明的科学家群体中。科学研究范式相应发生了根本性转变,进入到基于数据密集型计算的“第四范式”。这一范式的特点是科学研究建立在掌握尽可能多的科学数据基础之上。因此,迫切需要将科学数据纳入正式的学术交流过程,使之成为一种跟文献一样可以公开获取的资源。正如吉姆格雷描述的科学研究第四范式愿景:“能够实现所有的科学数据和文献的统一,创建数据文献交互操作的世界,更好的实现学术交流。”[1]   科学数据的互操作正是实现上述愿景的一个先决性条件,它帮助实现跨学科、跨社区的学术信息交流。CODATA中国委员会将科学数据的互操作列为大数据时代支撑科学研究的共性技术之一[2]。因此,实现科学数据的互操作,构建基于科学数据的第四范式对学术信息交流和创新具有深远的意义。   2 科学数据互操作概述   2.1 科学数据互操作概念   大数据时代越来越需要跨学科进行科学研究,比如地理观测领域依赖于多学科的科学数据分析,包括水文学、地质学、农学、地理学、生物学、GIS等。但是由于不同学科的系统和软件平台不同,产生的科学数据在格式、结构、语义关联、准确度等方面都存在差异。比如水文学计量长度的单位是米,数据格式是MIF,而地质学用的是千米,数据格式是GML。因此需要对科学数据实行必要的转换,实现就这一过程是科学数据互操作。   科学数据互操作作为整个互操作问题的一方面,目前还没有一个统一的定义,许多学者立足各自的视角对其提出了不同的观点。例如Scott A. Renner教授将科学数据互操作定义为跨越不同组织机构和系统的界限以一种统一、有效的方式正确阐释和理解科学数据的能力[3];Maurice教授认为科学数据互操作是为有效的信息交流而进行的数据管理活动,包括科学数据的清洗、耦合、融合、迁移以及信息提取等[4];Marijn Janssen教授认为科学数据互操作是两个或更多的数据集相互连接、结合、处理的能力[5];Nancy Ide教授等人把科学数据互操作分为语法互操作和语义互操作两方面。其中,语法互操作是指系统依赖于特定的协议进行相同格式的结构化数据交换,通常是通过XML格式和Web服务技术;语义互操作确保信息以相同的方式进行解释,这要求对不同本体的共同理解[6]。   根据以上学者对科学数据互操作的不同定义,本文认为科学数据互操作强调把不同格式和结构的数据集成在一起操作,可以理解为两个或更多的学科系统之间交换彼此的数据集信息并且使用所交换信息的能力。   2.2 科学数据互操作最新研究进展   大数据时代科学研究范式的变革要求科学

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档