- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
体系结构研讨
第六章 多处理器和线程级并行 6.1 简介 6.2 对称式共享存储器系统结构 6.3 对称式共享存储器多处理器的性能 6.4 分布式共享存储器和基于目录的一致性 6.5 同步 6.6 存储器连贯性模型 6.7 Sun T1多处理器 6.1 简介 单处理器已经运行在纳秒级了,必然要受到光速的限制,随着开发指令级并行空间的减少,未来必定是多处理器唱主角的时代 本章主要讨论少量到中等数量的处理器(4-32)组成的多处理器技术 MIMD并行系统结构 通信和存储器系统结构模型 并行处理遇到的挑战 MIMD并行系统结构 MIMD模型能实现线程级并行,一般多处理器设计都选用这种体系结构 MIMD优势: 灵活性强,既能适应单用户单一应用,也能适应多任务多道程序环境。 能充分利用现有微处理器性价比优势,利用微处理器作为内核,能有效降低设计成本 我们常见集群和多核都是基于MIMD模型的。 集群是一种流行的MIMD计算机类型,通常使用标准的组件和标准网络技术,这样就可以尽可能地支持多种通用技术 集群一般可以分为2种: 1 商业集群:依赖于第三方的处理器和互连技术,节点通常是刀片服务器或机架服务器,适用于吞吐量大而几乎没有线程级通信的应用,如Web和一些事务处理等 2 客户集群:可以定制节点或互连网络,主要针对并行应用,即单个程序的并行,这种应用有大量的线程级交互,需要单独定制。IBM Blue Gene就是一个客户集群。 20世纪90年代,出现了多核处理器,即片内多处理器或单芯片多处理器,多个内核共享Cache、存储器和I/O总线,多核依靠复制而不是依靠超标量体系结构来提高性能和降低成本。 IBM Power 5,Sun T1、Intel Pentium D和Xeon-MP都是基于多核的。 对MIMD,进程可以运行在单个处理器之上,也可以运行在多个处理器之上,这时采用的是多线程的执行方式。 线程由操作系统调度和管理,可以有不同的粒度大小,线程级并行与指令级并行不同的是,它可以在高层次上被软件系统识别,并且线程由几百至几百万条指令构成。 MIMD机器分为2类: 1 集中式共享存储器系统结构 到2006年,这种机器处理器个数少于100个,由于处理器数目较少,在使用大容量Cache的情况下,单一存储器的访问还是能够得到及时响应的。 这种结构下的每个处理器是对等的,也称为对称多处理器(SMP)系统,这种系统结构称为均匀存储器访问(UMA)。 2 分布式存储器系统结构: 这种机器每个处理器有单独的存储器,彼此之间通过互连网络连接,这种方式解决了存储器带宽的瓶颈,但处理器间通信变得复杂,处理器数目越多,需要的互连网络带宽也越大。 这种机器过去通常在处理器数目很大时使用,但现在这个数目在降低。 通信和存储器系统结构模型 分布式存储器系统有2种不同的系统结构: 1 分布式共享存储器(DSM)系统 这种体系结构通过共享的地址空间通信,即物理上分开的存储器作为逻辑上共享的地址空间进行寻址,通过引用地址的方式进行访问,2个不同的处理器中相同的物理地址代表存储器的同一位置 DSM并没有单一的集中的存储器,与UMA相比,访问时间取决于数据在存储器中的位置,因此也称为非均匀存储器访问NUMA DSM的机器,地址空间共享,通过load和store操作隐式地(implicitly)传递数据 2 多个寻址空间的存储器系统 这种体系结构由多个私有空间构成,这些私有空间在逻辑上是分散的,不能被远程处理器寻址, 2个不同的处理器中相同的物理地址代表2个不同存储器的不同位置。 每个处理器-存储器模块本质上是一台独立的计算机,集群就属于这种类型的计算机,由不同的处理节点和专用的互连网络组成。 这类机器的数据通信通过显式地(explicitly)在处理器间传递消息完成,因此常被称为消息传递多处理器系统(message-passing multiprocessors) 并行处理遇到的挑战 有2个障碍使并行处理的应用遇到了挑战,第一个是程序可获得的并行度是有限的(并行度低),第二个是通信相对较高的开销(通信时延长)。 提高程序的并行度只能通过在软件中采用更好的并行算法实现,而通信的时延则可通过改进体系结构或软件降低。 本章主要讨论减少通信时延的技术,如: 确保存储器一致性的前提下,如何用Cache减少远程访问频率 对潜在的性能瓶颈—同步的讨论 时延隐藏技术和共享存储器一致性模型 例:假设要用100个处理器获得80倍的加速比,那么原来计算机串行部分最多占多大比例 解: 并行部分所占比例=0.9975 串行部分所占比例=1-0.9975=0.25% 这个例题可以看到并行处理器性能对程序并行性有很高的要求 例: 假设有一个应用程序在一台32个处理器的多处理器系统上运行,处理器访问一个远程存储
文档评论(0)