- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 6 卷 第 3 期
工程研究——跨学科视野中的工程
6 (3): 266-274
2014 年 9 月
JOURNAL OF ENGINEERING STUDIES
Sep., 2014
DOI: 10.3724/SP.J.1224.2014.00266
“大数据处理中的基础理论与关键技术”专刊
科研大数据平台关键技术与实践
程耀东,陈 刚
(中国科学院高能物理研究所,北京 100049)
摘 要: 首先,以高能物理领域数据处理为例,分析了支撑科学研究的大数据平台 在存储和处理能力、传输和共享等方面的挑战, 说明现有技术已经难以满足日益快速增 长的数据处理需求。然后,给出了科研大数据平台的典型架构,并讨论科研大数据平台 的关键技术,包括数据采集与清洗、数据存储、数据处理、数据传输、数据共享与安全等 技术,同时介绍了各种关键技术的研究现状或者主流系统。最后,介绍了中国科学院高 能物理研究所科研大数据开放平台的建设思路和实现框架,该平台试图解决目前大数据 发展过程中面临的一些问题,如数据开放和跨领域融合不够、跨地域数据传输性能低等, 从而激活数据价值,降低应用门槛。
关键词: 大数据;数据存储;并行数据处理;开放平台
中图分类号: O57 文献标识码: A 文章编号: 1674-4969(2014)03-0266-09
引言 视频和音乐),远远超过人类有史以来所有印刷材
[2]
当前,人类正在迈入一个前所未有的大规模
料的数据总量(200 PB)
。根据 2012 年 IDC 的
生产、消费和应用大数据的时代。大规模科学研
数字宇宙研究报告,人类在 2010 年步入 ZB(1
6
究,以及近几年互联网、物联网的快速发展,把
ZB=1×10
[3]
PB)时代后,到 2020 年数据量将增长
人类带入了“大数据时代”。根据数据的来源,大
50 倍
(图 1)。
数据可以粗略地分成两大类:一类来自物理世界, 另一类来自人类社会。前者多半是科学实验数据 或传感数据,后者与人的活动有关系,特别是与 互联网有关。欧洲核子中心的大型强子对撞机 LHC(Large Hadron Collider)上的探测器每年产 生的数据量达到 25 PB[1]。用电子显微镜重建大脑 中的突触网络,1 mm3 大脑的图像数据就超过 1 PB。同时,人们的日常生活与网络关联得越来越 紧密,海量的数据在网络中产生、传输、存储、 处理。据 IDC(Internet Data Center)公司统计,
2011 年全球来自于个人的数据(主要是图片、
无论科学实验数据还是人类社会产生的 数
图 1 全球数据增长
图片来源:IDC(Internet Data Center)的数字宇宙研究报告。
收稿日期: 2013?10?08; 修回日期: 2013?11?25
基金项目: 国家自然科学基金项目
作者简介: 程耀东(1977–),男,副研究员,研究方向为海量存储、网格计算与云计算等。E-mail: HYPERLINK mailto:chyd@ chyd@
陈 刚(1961–),男,研究员,博士生导师,研究方向为高性能计算、分布式系统、大数据分析等。
程耀东,等:科研大数据平台关键技术与实践 267
据,最终只有在大数据计算平台上进行分析处理, 才能将数据转换成知识和信息,发挥出大数据的 价值。
本文首先介绍科研模式的转变以及科研大数 据的需求和现状。然后,针对科研大数据平台中 的关键技术,包括数据采集、数据存储、数据传 输、数据处理以及共享和安全进行分析。最后, 结合高能物理领域的数据处理对科研大数据平台 的一些实践进行介绍。
1 科研大数据及其计算平台现状
1.1 科研模式的转变
人类探索世界的脚步永无止境,而科学研究 的方式也在不断发展。远古时期,人们依靠观察 和思辨来认识和探索世界。17 世纪以来,随着牛 顿经典力学基本运动定律的发表,科学家们逐渐 把实验与理论作为科学研究的基本手段。然而, 随着人类探索世界的不断深入,许多科学问题的 实验研究和理论研究变得越来越复杂,甚至难以 给出明确的结论。近半个世纪以来,随着电子计 算机的诞生与快速发展,计算机仿真模拟变成第 三种不可或缺的科学研究手段,以帮助科学家们 去探索实验与理论难以解决的问题,如宇宙的起 源、汽车碰撞、天气预报等。而在当前社会,各 个学科领域的研究不断向纵深发展,不管是实验 装置还是计算机仿真模拟的规模都变得越来越 大,产生了越来越多的数据,从而催生了围绕海 量数据获取、存储、共享和分析的科学研究手段。 来自大科学装置或者计算机仿真模拟的实验数据 被收集和存储起来,并通过先进高速的网络与处 于不同国家或机构的合作者分享。依靠分布式计
您可能关注的文档
最近下载
- 2024年江苏省南京市中考物理试题卷(含答案解析).docx
- 八年级美术上册5静物画有声教案省公开课一等奖新名师优质课获奖PPT课件.pptx
- 电子鼓hd3中文说明书.pdf
- 2024年江苏省南京市中考数学试题卷(含答案解析).docx
- 通桥(2018)1301-Ⅲ时速250公里、350公里高速铁路无砟轨道(16+24+16)m钢筋混凝土刚构连续梁.pdf
- 2024年武汉市城市建设投资开发集团限公司招聘【221人】公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx
- 12.《玩偶之家(节选)》课件 统编版高中语文选择性必修中册.pptx
- 眼部健康保养.ppt VIP
- 急性一氧化碳中毒诊治专家共识.pptx
- 心内科常见疾病护理常规ppt.pptx
文档评论(0)