大数据及其相关新兴技术.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * 7、高性能计算面临大数据的挑战 7.1 计算模型的转变:从Scale-up到Scale-out 传统的高性能(High Performance)并行处理模型基于“Scale-up” 所谓机器的性能(Performance)是指:机器能做计算的能力(Capability,Ability to do computation)。 所谓“Scale-up”意思是指:在并行系统中,利用增多处理器的数目而维持机器性能(即计算能力)的提高。 大数据使用的是高通量(High Throughput)并行处理模型“Scale-out” 所谓吞吐量(Throughput)是指:穿过系统(进程)的数据项(Items)的数目(Amount of number of items)。 所谓“Scale-out”意思是指:在分布式系统中,利用连续不断地加入低成本的计算和存储节点而维持系统吞吐率的增加。 * 7、高性能计算面临大数据的挑战 7.2 系统结构的转变:从HP到HT 传统的高性能计算使用大规模并行处理结构 大规模并行处理(MPP:Massively Parallel Processing)系统结构 MPP特点 处理器节点采用商用微处理器。 系统中有物理上分布的存储系统。 处理器节点间采用定制的高带宽、低延迟的互连网络。 整个系统扩充到成千上万乃至更多的处理器。 * 7、高性能计算面临大数据的挑战 大数据处理利用高通量分布处理结构 分布自治的工作站机群(COW:Cluster of Workstations)系统结构 机群的特点 每个节点是一台独立自治的PC机或服务器工作站等。 各节点之间通过标准商用或低成本的网络(千兆位以太网等)连接。 整个系统可包含成百上千乃至更多的服务器。 为适应大数据需要,系统中需配置不同形式的诸如固态存储器(SSD)和高容量的SATA硬盘等磁盘阵列。 * 7、高性能计算面临大数据的挑战 7.3 编程模型的转变:从BSP到MR 大规模并行编程常使用大同步并行模型 大同步并行(BSP:Bulk Synchronous Parallel)计算模型 计算步骤 在BSP模型中,计算是由一系列超步(Supper step)组成,在每一个超步中,首先各个处理器(或进程)均各自执行自己的局部计算;然后通过接收/发送施行全局通信;最后施行路障同步。如此重复直至完成计算。 * 7、高性能计算面临大数据的挑战 大数据并行处理常使用映射-归约引擎 映射-归约(MR:Map-Reduce) 大数据处理引擎:实际上是一种先“分”后“合”的数据处理方式。 右图所示,采用MapReduce来统计集合形状数量:①先把任务分配到两个节点上分别并行统计,②把结果汇总,得到最终结果。 处理作业(Job)步骤: 在MR中,一个作业(Job)被提交给主节点(Master node),由其将任务(Tasks)指派给各个工作节点(Worker nodes),进行分布并行处理:即经过“Map”将存储在DFS中的海量数据分割成若干部分,由各个工作节点并行处理;经“Reduce”把各工作节点处理后的结果,进行汇总写入到输出DFS中去。 * 7、高性能计算面临大数据的挑战 7.4 应用方式的转变 高性能计算(HPC)的应用 应用对象(用户):基本上是从事科学研究的大型工程计算的科学家和工程师们。 应用模式:高性能计算(HPC)运营模式基本上是采用向计算中心事先预约,独占计算资源,分时使用,统一付费的传统科学工程计算模式。 大数据处理的应用 应用对象(用户):大都是广大的大数据分析从业人员。 应用模式:大数据处理的运营模式是从业人员通过互联网络,对基于云计算的基础设施(存储和计算资源等)施行资源租用、即用即约、虚拟占用、按量付费的云计算运营模式。 * 7、高性能计算面临大数据的挑战 7.5 其他方面的转变 计算模式的转变 以计算为中心转向以数据为中心:传统的高性能计算主要以计算为中心,着重研究算法以及复杂性;而大数据时代除了研究计算外,更重要的是要研究计算对象,即数据的复杂性。 以离线批处理计算转向实时流计算:大规模科学工程计算往往是采用离线批处理集中计算方式;而大数据时代通常采用在其生命周期内呈现的一连串连续变化数据的实时流计算模式。 数据存储的转变 从集中式存储转向分布式存储:传统的高性能计算,数据通常集中存储在磁盘、磁带等外部存储器中;而大数据时代文件系统往往存储在不同层次的分布式存储器中。 从以行存储转向以列存储:传统的高性能计算,存储在关系数据库中的文件将记录按行排序存储;而大数据时代,将文件记录的相同字段作为一个列簇而聚合存储。 * 8、结论

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

建筑工程师持证人

没啥好说的额

领域认证该用户于2024年10月16日上传了建筑工程师

1亿VIP精品文档

相关文档