体系结构研讨.pptVIP

下载本文档

5
0
约1.79万字
约 96页
2017-05-08 发布于湖北
举报
版权申诉

体系结构研讨.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

体系结构研讨

第六章多处理器和线程级并行 6.1 简介 6.2 对称式共享存储器系统结构 6.3 对称式共享存储器多处理器的性能 6.4 分布式共享存储器和基于目录的一致性 6.5 同步 6.6 存储器连贯性模型 6.7 Sun T1多处理器 6.1 简介单处理器已经运行在纳秒级了，必然要受到光速的限制，随着开发指令级并行空间的减少，未来必定是多处理器唱主角的时代本章主要讨论少量到中等数量的处理器(4-32)组成的多处理器技术 MIMD并行系统结构通信和存储器系统结构模型并行处理遇到的挑战 MIMD并行系统结构 MIMD模型能实现线程级并行，一般多处理器设计都选用这种体系结构 MIMD优势：灵活性强，既能适应单用户单一应用，也能适应多任务多道程序环境。能充分利用现有微处理器性价比优势，利用微处理器作为内核，能有效降低设计成本我们常见集群和多核都是基于MIMD模型的。集群是一种流行的MIMD计算机类型，通常使用标准的组件和标准网络技术，这样就可以尽可能地支持多种通用技术集群一般可以分为2种： 1 商业集群：依赖于第三方的处理器和互连技术，节点通常是刀片服务器或机架服务器，适用于吞吐量大而几乎没有线程级通信的应用，如Web和一些事务处理等 2 客户集群：可以定制节点或互连网络，主要针对并行应用，即单个程序的并行，这种应用有大量的线程级交互，需要单独定制。IBM Blue Gene就是一个客户集群。 20世纪90年代，出现了多核处理器，即片内多处理器或单芯片多处理器，多个内核共享Cache、存储器和I/O总线，多核依靠复制而不是依靠超标量体系结构来提高性能和降低成本。 IBM Power 5，Sun T1、Intel Pentium D和Xeon-MP都是基于多核的。对MIMD，进程可以运行在单个处理器之上，也可以运行在多个处理器之上，这时采用的是多线程的执行方式。线程由操作系统调度和管理，可以有不同的粒度大小，线程级并行与指令级并行不同的是，它可以在高层次上被软件系统识别，并且线程由几百至几百万条指令构成。 MIMD机器分为2类： 1 集中式共享存储器系统结构到2006年，这种机器处理器个数少于100个，由于处理器数目较少，在使用大容量Cache的情况下，单一存储器的访问还是能够得到及时响应的。这种结构下的每个处理器是对等的，也称为对称多处理器(SMP)系统，这种系统结构称为均匀存储器访问(UMA)。 2 分布式存储器系统结构：这种机器每个处理器有单独的存储器，彼此之间通过互连网络连接，这种方式解决了存储器带宽的瓶颈，但处理器间通信变得复杂，处理器数目越多，需要的互连网络带宽也越大。这种机器过去通常在处理器数目很大时使用，但现在这个数目在降低。通信和存储器系统结构模型分布式存储器系统有2种不同的系统结构： 1 分布式共享存储器(DSM)系统这种体系结构通过共享的地址空间通信，即物理上分开的存储器作为逻辑上共享的地址空间进行寻址，通过引用地址的方式进行访问，2个不同的处理器中相同的物理地址代表存储器的同一位置 DSM并没有单一的集中的存储器，与UMA相比，访问时间取决于数据在存储器中的位置，因此也称为非均匀存储器访问NUMA DSM的机器，地址空间共享，通过load和store操作隐式地(implicitly)传递数据 2 多个寻址空间的存储器系统这种体系结构由多个私有空间构成，这些私有空间在逻辑上是分散的，不能被远程处理器寻址， 2个不同的处理器中相同的物理地址代表2个不同存储器的不同位置。每个处理器-存储器模块本质上是一台独立的计算机，集群就属于这种类型的计算机，由不同的处理节点和专用的互连网络组成。这类机器的数据通信通过显式地(explicitly)在处理器间传递消息完成，因此常被称为消息传递多处理器系统(message-passing multiprocessors) 并行处理遇到的挑战有2个障碍使并行处理的应用遇到了挑战，第一个是程序可获得的并行度是有限的(并行度低)，第二个是通信相对较高的开销(通信时延长)。提高程序的并行度只能通过在软件中采用更好的并行算法实现，而通信的时延则可通过改进体系结构或软件降低。本章主要讨论减少通信时延的技术，如：确保存储器一致性的前提下，如何用Cache减少远程访问频率对潜在的性能瓶颈—同步的讨论时延隐藏技术和共享存储器一致性模型例：假设要用100个处理器获得80倍的加速比，那么原来计算机串行部分最多占多大比例解：并行部分所占比例=0.9975 串行部分所占比例=1-0.9975=0.25% 这个例题可以看到并行处理器性能对程序并行性有很高的要求例：假设有一个应用程序在一台32个处理器的多处理器系统上运行，处理器访问一个远程存储