并行计算机系统结构.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 并行计算机系统结构 计算机系统结构 胡越明 计算机系 Agenda 5.1 并行处理器系统 5.2 并行计算机的互连网络 5.3 芯片级并行性 5.4 系统级并行性 5.1 并行处理器系统 并行性的开发 资源重复 硬件设备的多重设置 阵列机、多核和多处理器系统 时间重叠 多个处理过程在时间上错开 流水线处理方式 资源共享 分时运行 多进程、多线程 并行性的层次 操作级 流水 数据并行 指令级 相关性分析 指令调度 循环级 展开 推测执行 路径调度 线程级 并行多线程、多核与多处理器 数据缓存的一致性 同步与互斥的有效性 多处理机系统结构 多处理机系统的结构分类 UMA tightly coupled SMP symmetrical multiprocessor non SMP NUMA DSM MPP loosely coupled UMA Uniform memory access 可编程性 兼容性 简单的程序设计模型 通信开销小 ? 可扩展性 共享存储器结构使得存储器成为瓶颈 ? 访存速度要求 每个数据都来自共享的存储器 UMA的实现 集中式存储器 问题 访存冲突 网络带宽 解决方案 多体交叉 本地指令存储器 本地cache NUMA DSM distributed shared memory 用硬件机制将分布的存储器构成一个逻辑上统一的共享存储器 cache及其一致性问题 CC-NUMA cache coherent NUMA COMA cache only memory access MPP massively parallel processors 大规模并行处理机系统 消息传递 显式数据交换 程序设计较难 NUMA的实现 分布式存储器 本地存储器延迟较小 扩展性较好 性价比高 数据一致性问题 编程复杂 DSM的结点 CC-NUMA 本地cache失效时数据将根据地址从本地存储器中或者远程存储器访问 Cache命中率低 COMA 增加每个数据块的命中标志信息和状态信息 数据块可迁移 多处理机系统的结构分类 按硬件层次 网络级 网格 机架级 板级 多CPU芯片主板 芯片级 芯片多处理器CMP 多核 芯片级并行性 特点 独立的控制流 分离的内部状态 没有共享的功能部件 分类 同构多核 Core 2 Duo 异构多核 Cell处理器 网络处理器 芯片级并行性 性能比较 CPU芯片降低15%工作电压的结果 主频降低15% 功耗降低45% 性能下降10% 芯片级并行性 芯片面积与性能 芯片级并行性 一个大核与多个小核的比较 Core 2 Processor Block Diagram Intel’s tera-scale chip IBM-Sony Cell 网络处理器(IXP2400) 消息传递接口 消息缓存 互连网络 处理器间中断(IPI)的机制 并行处理器系统的性能 程序的执行时间 并行执行部分 + 通信时间部分 + 串行执行部分 加速比 并行处理器系统的性能 Amdahl定律 通常用于分析功能部件级的性能加速比 未考虑存储系统的性能影响 Gustafson加速比模型 要求在衡量并行计算机加速比的时候相应地增加问题规模 使得每个处理器分得的问题规模(如数据量)保持不变 设a为串行部分的执行时间比例,(1-a)为并行部分的执行时间比例,n为处理器数,加速比为 a + (1-a)n 并行处理器系统的性能 可伸缩性(scalability) 限制可伸缩性的因素 互连网络的复杂性和通信延迟 编程的复杂性 通信和同步开销 Amdahl定律 加速比的例子 5.2 并行计算机的互连网络 拓扑结构 静态网络 结点包括一个功能部件和连接网络的开关元件 一维,二维,多维 动态网络 开关元件构成 处理器等功能部件位于网络的边缘 单级,多级 并行计算机的互连网络 并行计算机的互连网络 互连网络特性 连接性 阻塞,冲突 规整性 静态网络的参数 度 直径 带宽总和aggregate bandwidth 对分带宽bisection bandwidth 静态互连网络 全互连网络fully connected network 度=N-1 直径=1 链路数=N(N-1)/2 对分带宽? 优点:结点间通信距离短 缺点:成本高,实现困难 总线型网络 单总线结构single bus 度=1 分时使用 优点 结构简单 成本低廉 容易实现 缺点 使用冲突 总线型网络 多总线结构 度=总线数 多级总线结构 分级的多总线结构 二维总线结构 总线的分割 环型网络 单环网络single ring x ?(x?1) mod N 直径=? 度=? 寻径算法简单,可同时传

文档评论(0)

676200 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档