- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
E-Science环境中研究图书馆的新角色:科学数据管理
崔宇红
(北京理工大学图书馆,北京,100081)
摘要:科学数据管理(Scientific Data Curation)正迅速成为科学领域、图书馆学和大学图书馆的关注热点。文章介绍科学数据浪潮和数据密集型计算的新型研究范式,阐述了e-Science环境下数据管理的概念演变和科学内涵,从生命周期的角度理解科学数据管理统一连续体的作用边界,重点探讨研究图书馆的未来角色以及新的数据图书馆员能力建设,旨在引发和推动国内图书馆界尽快开展相应的研究和实践。
关键词:科学数据管理 数据密集型计算 统一连续体 数据图书馆员
1 引言
科学数据管理(Scientific Data Curation)正迅速成为专业学科领域、信息科学和图书馆的关注热点。笔者在谷歌学术搜索中用题名“Data Curation”检索,发现2001-2003年期间仅有3篇文献,到2008-2010年则增加到98篇。国际顶级杂志Nature在2008年和2011年载文分别介绍生物科学数据管理的进展和生物学数据管理员的出现[1][2]。在2011年欧洲的数字图书馆理论与实践国际会议(TPDL)上,科学数据管理被列入研究主题之一,英国成立数字管理中心(Digital Curation Center,DCC)每年主办专业期刊和学术年会。2007年美国国家自然科学基金委员会(NSF)启动DataNet计划,预计在5年时间内投入1亿美元用于支持以图书馆为主体开展科学数据管理的研究工作,首批获得资助的两个项目分别是由霍普金斯大学图书馆主持的Data Conservancy和由新墨西哥大学主持的DataOne(Data Observation Network for Earth),这些都昭示着数据管理作为一个新兴研究领域的兴起。
相比之下,国内图书馆界相关理念和知识还比较匮乏。2011年,台湾大学图书馆联合美国伊利诺伊州香槟分校主办“E-Research:新世代学术研究之利器”,重点研讨了大学图书馆在科学数据管理中的新角色。国内少数学者的研究还限于对国外相关实践的介绍[3],有必要对其实质进行深入描述和多角度探讨。文章阐述科学数据管理产生的背景、演变和特征内涵基础上,从生命周期的角度理解数据管理统一连续体的作用域和策划边界,重点探讨大学图书馆的未来角色以及新的数据图书馆员能力需求,旨在引发和推动国内图书馆界尽快开展相应的研究和实践。
2 科学数据浪潮和数据密集型计算
本世纪科学研究的最重要特征就是科学数据浪潮和数据密集型计算(Data-intensive Computing)。
当今科学研究正站在数据海啸的边缘。据统计,欧洲分子生物实验室核酸序列数据库(EMBL-Bank)收到数据的速度每年递增200%2008年生产数据1万亿碱基对,2009年这个速率又翻一番。生物医学已经有1800现在每年增加接近百万篇e-Science:科学研究的第四种范式》,阐述了在生命科学、天文学、地球科学、环境科学、医药健康等诸多学科领域中,科学研究范式已经由基于假设的研究(实验、理论、仿真)向基于探索的研究—数据密集型计算(data-Intensive)演变[4]。例如,一个天文学家可以不需要实地观测天文望远镜,而是把望远镜观测到的现象、数据和相关的元数据存储在计算机中,通过查找、使用、融合和分析数据从而创造出新的数据和科学发现。
在数据驱动的科学研究范式中,就像文献数据库一样,数字数据图书馆成为E-Science环境中的基础信息设施。1976年创建的蛋白质数据银行(PDB)是最早的数字数据馆藏NCAR)是最早对地球科学数据进行建模、收藏和保存的机构,圣地亚哥超级计算机中心(SDSC)则是最早意识到这种科学研究对数据的需求并为科学社区提供计算能力的机构,已建立起7个数据中心站点,有27PB数据和100多个专业数据库(如生物信息计量学和水资源)。我国的科学数据共享工程在资源环境、农林、医药、材料、能源、交通、信息、先进制造与自动化、基础科学等领域构建50个左右的科学数据中心或科学数据网。
3 概念演变和科学内涵
“Curation”一词来源于拉丁语curate,原意为照顾,在使用中衍生了多种释义。早期它多应用在艺术文化领域中。例如,考古学将石器技术划分为精细加工( curation)和权宜加工( expediency)两类,精细石器( curated tools)修整精致,形态规范,可以实现多种功能[5]。博物馆中将之通常译为“策展”,指对藏品持续养护并推出有主题的展览最终提高馆藏面世率Curation”这个文化领域的特定称谓变得无处不在。互联网用户创建的大量信息和内容,其细微差别和复杂性超出谷歌等搜索引擎的机器处理和识别能力,内容策划就是经
文档评论(0)