体系结构第7章 节 第5讲.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
体系结构第7章 节 第5讲.ppt

国家精品资源共享课程:计算机体系结构;第七章 多处理机;7.5.3.同步性能问题;解:当i个处理器竞争锁的时候,他们完成下列操作序列,每一个操作产生一个总线事务: 访问该锁的i个LL指令操作; 试图锁住该锁的i个SC指令操作; 1个释放锁的存操作指令。 因此对n个处理器,总线事务的总和为: ∑(2i+1)=n(n+1)+n=n2+2n 对于10个处理器有120个总线事务,需要12000个时钟周期。 本例中问题的根源是锁的竞争、存储器中锁访问的串行性以及总线访问的延迟,总线的公平性使得这些情况更为突出。因为总线的公平性,一个处理器释放锁后,其余的处理器都来竞争取锁。 ;栅栏(barrier)同步 栅栏强制所有到达该栅栏的进程进行等待,直到全部的进程到达栅栏,然后释放全部的进程,从而形成同步。 栅栏的典型实现是要用两个旋转锁:一个用来记录到达栅栏的进程数,另一个用来封锁进程直至最后一个进程到达栅栏。栅栏的实现中要不停地探测指定的变量,直到它满足规定的条件。 ;;7.5.2.大规模机器的同步 1.软件实现 1)延迟进程的等待时间 DADDUI R3,R0, #1 ;R3=初始延迟值; lockit: LL R2,0(R1) ;load linked BNEZ R2,lockit ;无效 DADDUI R2,R2,#1 ;取到加锁值 SC R2,0(R1) ;store conditional BNEZ R2,gotit ;存成功转移 DSLL R3,R3,#1 ;将延迟时间加倍(左移1位) PAUSE R3 ;延迟R3中时间值 J lockit gotit: 使用加锁保护的数据;;;;;;7.6 同时多线程;图7.16: 超标量处理器中的4种不同的流出槽使用方法;;7.6.2.同时多线程处理器的设计 1.细粒度调度方式下对单个线程的性能的影响 设置优先线程 2.其他主要问题 设置用来保存多个上下文所需的庞大的寄存器文件; 必须保持每个时钟周期的低开销,特别是在关键步骤上,如指令流出和指令完成。前者有更多的候选指令需要考虑,后者要选择提交哪些指令的结果; 需要保证由于并发执行多个线程带来的cache冲突不会导致显著的性能下降。 由于同时多线程在多流出超标量处理器上开发线程级并行,所以最适合于应用到面向服务器市场的高端处理器上 ;7.6.3.同时多线程的性能 HP公司在Alpha 21464处理器上支持了同时多线程 Intel Pentium 4 Xeon处理器也支持了同时多线程;;;;7.7 并行处理器的性能评测;;7.8 多处理机实例 T1 Multiprocessor Sun公司2005推出的服务器处理器 多核多处理机 致力于开发TLP而非ILP 使用多核和多线程来提高吞吐率 每个Ti 处理器包含 8个处理器核, 每个核支持4个线程 每个处理器核由一个简单的六栈单发射流水线构成 T1 采用细粒度多线程,在每个时钟周期都进行线程切换;Origin 2000 分布共享存储器结构的大规模并行多处理机系统,采用超结点的模块结构,可以从1个处理器扩展到128个处理器。 Origin 2000采用超标量MIPS R10000处理器,运行Unix的64位IRIX操作系统。 ; Origin基于NUMA体系结构的。每个结点可安装1个或2个MIPS R10000微处理器、第二级高速缓存(L2 Cache)、主存储器、目录存储器及Hub等,Hub用于连接微处理器、存储器、I/O和路由器等。 Origin存储器系统每个结点的主存储器容量为4GB。结点的Hub内含4个接口和交叉开关。存储器最大传输率为780Mb/s,I/O和路由器接口最大传输率为2×780Mb/s,即1.56Gb/s。;Origin体系结构;4处理器系统;16处理器系统; 128处理器构成的Origin 2000系统由4个立方体组成,在立方体之间传送数据多经过了一级路由器。 在结点内部实现的是SMP(对称多处理器)结构,由于只有两个处理器,所以不存在SMP结构的总线瓶

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档