第3章 性能指标和基准程序 第2节 性能和成本 并行处理与体系结构教学课件.ppt

第3章 性能指标和基准程序 第2节 性能和成本 并行处理与体系结构教学课件.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 性能指标和基准程序 第2节 性能和成本 并行处理与体系结构教学课件

哈尔滨工业大学计算机科学与技术学院 并行处理与体系结构 第3章 性能指标和基准程序 ?1 系统和应用的基准程序 ?2 性能和成本 ?3 基本性能指标 ?4 并行计算机性能 ?5 并行程序性能 ?6 可扩展性和加速比分析 用户经常提到6种性能: 执行时间 速度 吞吐率 利用率 成本有效性 性能/成本比 对在相同计算机平台上执行相同的应期程序,这些需求可能导致很大差别的结论。 例题: 用执行时间测量性能的陷阱 在并行计算机x上成功地运行他的代码测得执行时间为1000s。 该代码在另一台机器y上运行需要500s时间, 推不出:结论x机比y机慢 一、执行时间和吞吐率 1.处理速度: 是指单位时间的工作负载(W)的处理; 对于许多应用,用户可能对达到某一处理速度感兴趣。 系统吞吐率 是指单位时间处理的作业数 提高系统吞吐率的两个方法 流水化 无相关的分配 例题:在256个结点的SP2上希望STAP在0.5秒完成 根据上表,只有APT能完成 例题:在256个结点的SP2上希望STAP速度为10GFLOP/S 根据上表,只有HO-PD能完成 2.系统吞吐率 是指单位时间处理的作业数 提高系统吞吐率的两个方法 流水化 无相关的分配 例题:在256个结点的SP2上 APT程序的吞吐率是单位时间作业数 0.16S一个APT 或1/0.16=6.25 例题:并行APT中吞吐率和速度改进 上表的工作负载=9*0.16=1.44Gflop 用两级流水0.14S,0.11S 吞吐率=1/0.14S=7.14或10.34 二、利用率和成本有效性 执行时间、速度和利用率是最重要的3个指标 利用率: 它是一个给定计算机实际可达到速度与峰值速度之比 例题:执行APT的IBMSP2的利用率 假定每个CPU小时需收费10美元 则由下表,计算APT程序运行在256个结点和1个结点上时的利用率 256个结点和1个结点哪一个更成本有效? 解:每个SP2结点的峰值速度为266 Mflop/s(见表3-2 136G/512=266) 一个有256个结点的SP2,其峰值速度为: 266x256=68Gflop/s; APT程序在256个结点上可达到的速度为: 9Gflop/s; 在1个结点可求出达到的速度为: 100Mflop/s; 转换成利用率则各自分别为: 利用率Un=Pn/(nPpeak) 256个结点利用率=9G/68G=13.3% 单个结点利用率=100M/266M=37.6% 结论: 表明APT程序在SP2上运行,在一个结点上时是更为成本有效 根据上面的要求: 在256个结点上执行APT需0.16s 执行一个APT的总成本为: $10x 256x0.16/3600=$0.11 这相应于成本有效性为(9 Gflop/s)/$0.11=79Gflop/s每美元。 在一个结点时,执行时间约为14.4s 总的成本仅为: $10x14.4/3600=$0.04, 成本有效性为(9Gflop/s?)/$0.04=225Gflop/s每美元 总结: 该例子表明较高利用率对应地有较高的每美元Gflop/s 当CPU 1小时费用值固定时这总是成立的 CPU一小时的费用在不同机器上对不同类型的作业可能有高有低。 推广 如果用成本来衡量:Gflops/美元 低利用率总是对应一个差的程序或编译器。 经验估计值: 运行在单MPP处理器上: 顺序应用程序(利用率)--5%到40%之间; 典型是--8%到25%之间。 某些个别的子程序可达到75%以上。 对于在多个处理器上运行的并行应用程序利用率在1%到35%之间;典型地则是在4%到20%之间。 一个广为流传的错误概念是: 单结点或顺序计算总是有最高的利用率?(由下图说明) 并行计算有额外通信和闲置开销,这并非总是正确的。 例子: 给出在3个MPP(Intel Paragon,IBM SP2和CrayT3D)上; 运行并行APT和HO基准程序; 测出利用率如下: NAS并行基准测试程序的3种MPP的利用率 * * 用到的一些概念 工作负载(W)是程序中的计算操作数 Ppeak是处理器的峰值速度 MB/s r∞ 渐近带宽 μs t0 启动时间 无量纲 Un=Pn/(nPpeak) 利用率 无量纲 En=Sn/n 效率 无量纲 Sn= T1/Tn 加速比 Mflop/s Pn=W/T 速度 s(秒) Tn 并行执行时间 s(秒) T1 顺序执行时间 Mflop(兆浮点运算) W 工作负载 MHz f 时钟速率 无量纲 n 机器规模 单位 记号 术语 在256个结点的SP2上所测得的STAP性能 13% 34% 6% 90 233 86 9

您可能关注的文档

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档