一种海量数据处理平台的解决方案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种海量数据处理平台的解决方案.doc

一种海量数据处理平台的解决方案   摘要:该解决方案采用 构建高性能计算的大型集群系统,进行海量数据处理,并可以减少分散投资的建设成本,降低整体管理成本,为科研机构提高科研水平及企业高效运营提供统一的高性能平台。   关键词:集群系统;海量数据处理;高性能   中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)21-4784-03   当今社会,信息技术高度发达。据统计,世界上每天产生的数据量可刻满1.88亿张DVD光盘,这是一个爆炸式的增长。未来,这种增长不会停止,数据量每18至24个月就会增长一倍,而物联网的出现,会进一步加快这种信息的爆炸式增长。面对这种海量的数据信息,对数据的管理和处理分析成为一个新的难题,海量数据处理技术应运而生[1]。海量数据处理基本上采用分布式存储技术,把大量信息切片,并行的进行存储和处理,以加快数据处理速度,应用属于IO密集型应用。这种分布式存储和处理架构对计算机硬件系统提出以下要求:   (1)整体架构基于水平式扩展的集群架构。(2)节点CPU要求不高。(3)节点内存需求相对较高,主要用于数据处理缓冲区、磁盘和通信cache,建议每节点CPU内核内存比1:2以上[2]。(4)节点网络通信带宽要求较高,主要用于数据传输和进程通讯,建议采用低延时高速交换网络InfiniBand。(5)节点内部存储容量要求较高,用于海量数据存储,建议2TB以上。   1 海量数据处理平台方案   1.1方案概述   针对海量数据处理需求,我们采用基于高速互联的IBM刀片服务器的高性能计算集群系统,CPU配置主流Intel x86架构CPU,CPU内核与内存比达到1:4,InfiniBand低延时高速互联网络可以满足海量数据处理的数据传输的需求。同时在每个计算节点中配置2TB热插拔内置磁盘存储,用于存储分布式海量数据,计算节点采用无盘启动,无需系统盘。而外置共享存储用于科学计算数据的存储与共享,同时也可承担海量数据处理应用中外部海量数据与处理系统直接的传输中转站[3]。外置共享存储采用IBM GPFS通用并行文件系统,实现计算节点与存储节点间并行文件访问协议以及RDMA传输方式(这样可以极大的提高系统IO通信带宽),同时通过CNFS/SAMBA/FTP/HTTP等二次共享方式,提供给外部客户端多种数据传输及访问方式,最大程度上支持各种各样的跨平台客户端。海量数据处理平台逻辑拓扑示意图如图1所示。   1.2方案设计原则   海量数据处理平台方案设计中,主要依据以下原则:   1)先进性:选择主流趋势的软硬件平台产品,使之不仅能够满足目前业务的需要,还能适应未来技术发展的趋势和需要。   2) 灵活性:优化系统资源配置比例,实现最大的应用灵活性。   3) 可扩展性:提供具有最高可伸缩性的系统,并保护用户现有的投资。   4)稳定性:整体系统确保稳定、高效、连续地运营,能够支持全天24小时的连续运行需求。   5) 开放性:系统方案采用开放标准,开放结构,开放系统组件和开放用户接口。充分满足用户投资保护和业务扩展、系统维护等方面的需求。   1.3海量数据处理平台各组成部分   本方案建议的集群系统中主要包含以下组成部分:管理节点、服务节点、计算节点、系统监控节点、资源/作业调度节点、登录节点、数据传输节点、存储节点、外置共享存储。主要硬件组成如表1所示,主要软件组成如表2所示。   2 方案优势   2.1 虚拟化—计算节点无盘启动   最热门的行业都是在需求和技术更新这双重的推动下前进的,在高性能计算领域中也不例外。如今,在许多行业各种规模的公司都需要解决计算密集的工作负载问题。在本方案中,计算节点采用无盘启动方式,这样就把操作系统和服务器硬件的紧耦合打开,使得海量数据处理服务可以很方便的在不同服务器硬件上运行,不存在紧密的联系,所有服务器相当于一个大的资源池,用户可以根据需求,自由的调度所需资源,并且在硬件出现故障时,缩短系统恢复所需时间;同时服务器内置磁盘可以全部用作海量数据处理,提高磁盘利用率[4]。所有系统镜像采用集中式管理,在进行系统维护、软件升级、修改系统配置等常规系统维护作业时,可以极大的缩短当机时间,减少系统维护工作量;同时我们还可以针对不同的应用,定制所需的不同系统镜像,在不同系统之间方便的进行切换,管理维护极其方便。   2.2 高可用数据服务—GPFS   1)高可用性:随着集群系统规模的不断扩大,用户对数据访问的可用性要求也越来越高,如果因为集群系统中几台服务器的故障,就导致用户数据无法访问,这是不可接受的,GPFS有着无与伦比的高可用性,这是其他并行文件系统无法比拟的。首先GPFS采用仲裁节点组的集群仲裁方式

文档评论(0)

lnainai_sj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档