并行计算体系结构.ppt

下载文档 降价啦

4
0
约4.54千字
约 27页
2019-10-01 发布于天津
举报
版权申诉
保障服务

并行计算体系结构.ppt

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * 阿姆达尔古斯塔夫森 * * 体系结构与并行基础赵永华中科院计算机网络信息中心超级计算中心 yhzhao@sccas.cn * * 并行机体系结构并行计算机系统结构分类 * * Flynn分类：（instruction/data stream ） SISD（单指令单数据）,SIMD（单指令多数据）, MIMD, MISD 结构模型分类： PVP（并行向量机）, SMP（共享内存）, MPP（大规模并行计算机）,DSM（分布共享内存）,COW（集群）访存模型分类： UMA(Uniform Memory-access，均匀存储访问模型) NUMA(non-UMA） COMA（Cache-Only Memory Architecture，全高速缓存内存体系结构） CC-NUMA(Cache-Coherent0一致性高速缓存非均匀存储访问模型), NORMA（No-Romate Memory Access 非远程存储访问模型）结构模型共享内存/对称多处理机系统(SMP) PVP：并行向量机单地址空间共享存储 UMA( Uniform Memory Access) SMP：共享内存并行机（ Shared Memory Processors ）。多个处理器通过交叉开关（Crossbar）或总线与共享内存互连。任意处理器可直接访问任意内存地址,且访问延迟、带宽、几率都是等价的; 系统是对称的；单地址空间、共享存储、UMA；并行编程方式: 通常采用OpenMP, 也可使用消息传递(MPI/PVM) 及HPF。 SGI Power Challenge , Dawning 1 * * MPP：大规模并行计算机系统 MPP:大规模并行计算机系统(Massively Parallel Processors)。由大量具有局部内存的计算结点通过高速系统网络联接而构成的并行处理系统. MPP 系统的系统网络通常具有某种拓扑结构(如tree, mesh, torus, hypercube). 物理和逻辑上均是分布内存采用高通信带宽和低延迟的互联网络 (专门设计和定制的) NORMA或CC-NUMA 代表:CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙光1000 * * DSM：分布共享存储多处理机系统 DSM：分布共享存贮并行机（Distributed Shared Memory），由结点（一般是SMP系统）通过高速消息传递网络互连而成。存贮系统在物理上分布、逻辑上共享。各结点有自己独立的寻址空间。单地址空间、分布共享 NUMA（ Nonuniform Memory Access ）与SMP的主要区别：DSM在物理上有分布在各个节点的局部内存从而形成一个共享的存储器；代表: SGI Origin 2000, Cray T3D * * Cluster：机群系统 Cluster(Now,Cow)：群集系统。将单个节点，用商业网络：Ethernet，Myrinet，Quadrics，Infiniband，Switch等连结起来形成群集系统。每个节点都是一个完整的计算机（SMP或DSM），有自己磁盘和操作系统各个节点通过高性能网络相互连接网络接口和I/O总线松耦合连接每个节点有完整的操作系统多地址空间、分布非共享、NORMA 通用性、可扩展性好，性价比高 * * 访存模型 * * UMA NORMA NUMA: 多处理机（单地址空间共享存储器） UMA: Uniform Memory Access NUMA: Nonuniform Memory Access 多计算机（多地址空间非共享存储器） NORMA:No-Remote Memory Access 最新的TOP500计算机 * * * * 最新的TOP500计算机来自Cray的美洲豹“Jaguar”，凭借1.75 PFlop/s(每秒1750万亿次)的计算能力傲视群雄。“Jaguar”采用了224162个处理器核心来自中国的曙光“星云”系统以1271万亿次/s的峰值速度名列第二采用了自主设计的HPP体系结构、高效异构协同计算技术处理器是32nm工艺的六核至强X5650，并且采用了Nvidia Tesla C2050 GPU做协处理的用户编程环境；异构体系结构专用通用 TOP500中85%的系统采用了四核处理器，而有5%的系统已经使用了六核或者更多核的处理器。 * * 并行编程基础 * * 并行计算软件环境操作系统：UNIX、LIN