- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大规模分布式数据的管理与传输
大规模分布式数据的管理 高能所计算中心 程耀东 中国·贵阳 2010-8-15 主要内容 数据快速增长 数据量增长到底有多快?视频、音频、图片… EMCIDC报告“数字宇宙十年—你是否准备好(2010.5.5)”称2010年数据量相当于750亿部16GB的iPad: 摆满北京国家体育场(鸟巢)15.5次, 伦敦温布利体育场 41次, 台北101大楼23次, LHC隧道151次 全球每人平均拥有11台iPad 福克斯电视台热门电视连续剧《24小时》连续播放1.25亿年 数据量达到1.2ZB 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB 高能物理数据量 Hepix 2010 14个主要站点在线存储空间达到87PB,而2007年才14PB,增加了5倍多 WLCG 在线存储:62PB,近线存储:58PB 大型实验 LHC: 15PB/year BES: 累积5PB 数据管理需求 数据量大 – 存的下 高速访问 – 取得到 广域分布 – 易分享 长期保存 – 存的妥 数据存储技术 在IT界,存储技术一直很火,为什么? 看似简单的需求,实际上要求很高 数据存储技术从软件到硬件都在不断发展,以满足需求 存储连接方式 单机存储(DAS)? 网络存储(NAS, SAN) 存储管理软件 本地存储系统? 分布式网络存储系统 存储连接方式 直接连接存储 DAS: Direct-Attached Storage 计算与存储集中 网络存储 FAS: Fabric-Attached Storage 存储与计算分离(一场革命) 存储管理软件 存储设备连接方式的变化,存储管理软件也随之发展 本地文件系统 管理本地的存储系统,为本地的应用服务 在DAS以及SAN服务器上比较常见 分布式网络存储管理系统 将分布在网络上的存储设备统一管理,为多个连接在网络上的应用服务 NAS服务器上的网络文件系统(NFS,CIFS)以及分布式文件系统(AFS, Lustre)等 趋势:数据量爆炸性的增长、计算模式的集群化发展、开放标准的存储设备,导致存储系统朝着集群化、分布式的方向发展 典型的高能物理存储环境 分布式存储系统典型结构 存储管理的功能组件 分布式存储管理系统 共享Home目录 AFS, NFS 大型实验数据空间 GPFS, LUSTRE, XROOTD, dCACHE, CASTOR, HPSS 磁带迁移 HPSS, TSM, ENSTORE, CASTOR/STAGER 困惑 有这么多的系统可以选择,是否值得高兴呢? 值得高兴是肯定的,因为有系统可以用,但是同样也有不少困惑 困惑一:如何选择? 可扩展性 客户端访问协议 软件是否能够长期维护? 困惑二: 众多的存储系统,在网格环境下如何管理? 网格强调:局部自治,全局统一 因此,对于这点,不再仅仅是困惑,而是一个必须要解决的问题! SRM 既然大家不能统一使用同一个存储系统,就只能通过标准化来解决 CERN, FNAL, DESY, INFN等单位成立标准工作组,制定了SRM(Storage Resource Manager )接口标准 包括了空间管理、文件管理、数据传输、协议发现等多组函数 WLCG网格存储管理 其它领域 以上的方案在高能物理领域应用非常广泛 高能物理只是大规模分布式数据应用的其中一个,还有更多的领域,比如搜索、社交网站、WEB2.0等等 每个领域的解决方案各有不同,但是核心都是采用分布式数据管理技术 随着数据量的快速增长以及计算模式的改变,Google、Yahoo等公司,推出了以GFS、HDFS等为代表云计算存储 试想这么一个例子: 从一个1TB的文件中统计包含“IHEP”的行,如何来做? 仅网络传输数据就需要大量时间!! Hadoop Hadoop文件系统HDFS将文件分成若干个数据块,并将它们放置在服务器群的计算节点中MapReduce就可以在它们所在的节点上处理这些数据 MapReduce简单过程 传统的做法 Cat input | grep IHEP | sort| uniq –c |cat output MapReduce Input | Map | shufflesort | Reduce | Output 计算与存储的协同 以GFS、HDFS等为代表云计算存储系统在设计时普遍遵守一个前提: “移动计算比移动数据划算” 存储系统在存储数据时把数据切成小块,任务调度器把计算任务正好调度到有数据的地方,直接在本地做计算,免去网络传输 计算与存储的协同统一,是一次新的变革。事物的发展总是波浪式前进、螺旋式的上升 其它特点 可靠性设计 设计时认为:”硬件故障是常态”
您可能关注的文档
- 地球的运动-自转.ppt
- 地球科学概论课程-防灾科技学院.DOC
- 地理环境整体性a生产功能.PPT
- 地理环境的地域分异规律1赤道到两极的分异规律规律.PPT
- 地质勘查成果通报矿产部分.ppt
- 地铁项目安置房车辆段南侧地块项目施工监理-Competitionline.DOC
- 地震防护自救及互救常识.DOC
- 地震科学数据元数据编写指引-地震数据共享中心.DOC
- 地质大气-德光中学.DOC
- 场地土壤污染监测----环境监测的新领域.DOC
- 2025年《人文科技常识》必刷100题题库带解析(精练).docx
- 2025年《人文科技常识》必刷100题题库带解析(基础题).docx
- 2025年《人文科技常识》必刷100题题库带解析(完整版).docx
- 当代世界经济与政治题目含答案 .pdf
- 2025年《人文科技常识》必刷100题题库带解析附参考答案(轻巧夺冠).docx
- 2025年《人文科技常识》必刷100题题库带解析(满分必刷).docx
- 2025年《人文科技常识》必刷100题题库带解析带答案(预热题).docx
- 2025年《人文科技常识》必刷100题题库带解析附参考答案(实用).docx
- 兰州新西部维尼纶有限公司校园招聘模拟试题附带答案详解完整版.docx
- 胚胎体外培养及胚胎评估的培训.ppt
最近下载
- 2024年中级社工法规四色讲义-完整版全189页 .pdf VIP
- 17K408:散热器选用与管道安装.docx VIP
- 2025年湖北省武汉市高考物理四调试卷+答案解析(附后) .pdf VIP
- 合信 COTRUST科创思CTSC-200系列用户手册V1.40.pdf
- 2012湖南公务员考试-公共基础知识.doc VIP
- 二年级语文教师家长会专用.ppt
- 杭州名鑫双氧水有限公司每年10万吨(折27.5%)过氧化氢技术改造项目可行性研究报告.doc
- DB14Z 1-2025 高速公路智慧服务区建设指南.docx
- [城市轨道交通地下段列车运行引起的住宅室内振动与结构噪声限值及测量方法上海市.doc VIP
- SR变更管理程序+变更全套表单 OK.doc
文档评论(0)