- 1、本文档共91页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云计算与大数据技术 目 录 第1章 云计算与大数据基础 第2章 云计算与大数据的相关技术 第3章 虚拟化技术 第4章 集群系统基础 第5章 MPI—面向计算 第6章 Hadoop—分布式大数据系统 第7章 HPCC—面向数据的高性能计算集群系统 第8章 Storm—基于拓扑的流数据实时计算系统 第9章 服务器与数据中心 第10章 云计算大数据仿真技术 第7章 HPCC—面向数据的高性能计算集群系统 《云计算与大数据技术》 第7章 HPCC—面向数据的高性能计算集群系统 7.1 HPCC简介 7.2 HPCC的系统架构 7.3 HPCC平台数据检索任务的执行过程 7.4 HPCC的安装布署 7.5 数据的加载、切分和分发 7.6 ECL语言基础知识 7.6.1 ECL语言的保留关键字 7.6.2 ECL语言的记录定义和操作 7.6.3 ECL语言集成开发环境 大数据时代的应用需要对采集、存储的超大规模数据进行分析处理,传统并行数据库系统无法提供实时的高性能计算。高性能计算(HPC,High Performance Computing)一般采用超级计算和集群计算两种方式。 超级计算(Super Computing)是将复杂的计算任务分配给不同的处理器进行处理; 集群计算(Cluster Computing)是指利用普通服务器甚至PC构建集群用于处理海量数据集,可以通过高速网络将成千上万台服务器或PC组建计算集群, Google的Map/Reduce、Hadoop、Scope、Sector/Sphere、HPCC等都是采用这种集群计算方案,以很低的成本组建具有强大计算力的集群。 数据密集型计算不仅要存储超大规模的数据,还要对数据进行复杂的计算和分析。 数据密集型计算需要处理PB级的数据,具有很高的计算复杂性和应用开发复杂性,与传统的高性能计算系统具有很大不同。 将计算靠近数据是处理具有海量数据的数据密集型计算的重要原则,将计算在数据存储的位置发起可以大大降低网络传输压力、提高响应速度。 结构化数据、非结构化数据都是大数据时代处理的对象,非结构化数据的数量相对于结构化数据而言非常巨大,传统数据分析平台很难对其进行处理,是大数据时代处理的重点对象。 非结构化数据一般采用文件系统进行存储,Google的GFS文件系统和Apache开源的HDFS文件系统是主流的分布式文件系统,用于数据分析领域;Sun公司的LustreFS文件系统和开源的PVFS并行虚拟文件系统具有高扩展性和高并发I/O特性,常用于科学计算。 结构化数据主要存储于数据库和分布式表结构中,在业务数据分析领域,MySQL等传统数据库无法满足用户对存储系统的可扩展需求,Google公司的BigTable和Apache的Hbase开源等NoSQL系统使用越来越广泛;在科学计算领域主要使用基于关系数据库的SDSS(Sloan Digital Sky Survey)和开源的SciDB等科学数据库。 当前主要的数据密集型集群计算系统有Hadoop、HPCC、Storm、Apache Drill、Rapid Miner、Pentaho等。 (1)Hadoop:由Apache软件基金会发起的基于块数据切分的分布式计算平台,采用Map/Reduce编程模式,具有高吞吐量、批处理的特点。 (2)HPCC:面向数据的高性能计算平台,平台基于键/值进行分析索引,用于来解决海量数据的处理与分析。 (3)Storm:基于流处理模式的分布式实时计算平台。 (4)Apache Drill:Google大数据分析系统Dremel的开源版本,可在10000台节点上处理PB级的数据,常用于处理MapReduce产生的数据,加速Hadoop的查询速度,具有超低的延时。 (5)Rapid Miner:用于数据挖掘、机器学习、商业预测分析的开源计算平台。 (6)Pentaho:以工作流为核心、强调面向解决方案的商务智能软件开源项目。 计算密集型平台需要尽量减少数据的移动,大多数的超级计算将数据存储在数据仓库或者服务器,在计算的时候将数据传输到计算节点,这样的方式数据传输压力大。数据密集型计算系统通常使用分布式文件系统,将数据存储在集群节点中,在运算的时候将计算任务发送到需要处理的数据所在的节点,数据传输压力远低于超级计算模式。 大量数据节点组成的计算集群中软硬件故障、通信故障是经常出现的,系统在软硬件平台设计的时候需要考虑系统的稳定性和可用性。 7.1 HPCC简介 当今,许多组织和企业都对数据密集型计算有着巨大的需求。 2011年,LexisNexis公司开源了其高性能计算分析平台HPCC系统,其C++编写的天然速度优势,可靠性与强力
您可能关注的文档
- 中央银行通论第三版课件下载孔祥毅_05中央银行资产业务上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_06中央银行的负债业务上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_07中央银行的其它业务上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_08中央银行货币政策目标上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_09中央银行货币政策工具(修改稿)上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_10中央银行货币政策的作用过程(修改稿)上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_11金融监管概述上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_12金融监管体制中的中央银行(修改稿)上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_13中央银行对金融市场的监管上课用课件.ppt
- 中央银行通论第三版课件下载孔祥毅_14中央银行与反洗钱(修改稿)上课用课件.ppt
- 岸基供电系统 第4部分:工频电源.pdf
- 人教版八下英语Unit 5 What were you doing when the rainstorm came_测试卷.docx
- 热带作物品种区域试验技术规程 木薯.pdf
- 草原防火阻隔带建设技术规程.pdf
- 渔用气胀救生筏技术要求和试验方法-.pdf
- 浙江省杭州市2024-2025学年八年级下学期期中考试英语试卷(含答案).docx
- 重庆市渝北区六校联盟2024-2025学年九年级下学期期中教学大练兵语文试卷.docx
- 食品安全-花椒籽油 (2).pdf
- 2025年海博思创分析报告:储能集成“小巨人”,国内外业务进展可期.pdf
- 地理标志产品 宽城板栗.pdf
文档评论(0)