- 1、本文档共131页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章并行计算机系统及结构模型-不再因为别人过得条好而焦虑
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 等速度度量标准 优点:直观地使用易测量的机器性能速度指标来度量 缺点:某些非浮点运算可能造成性能的变化 平均延迟度量标准 Ti为Pi的执行时间,包括包括延迟Li,Pi的总延迟时间为“L i+启动时间+停止时间”。定义系统平均延迟时间为: pTpara =To+ Ts 推持并行执行效率不变,则定义平均延迟可扩放性度量标准为 平均延迟度量标准 优点:平均延迟能在更低层次上衡量机器的性能 缺点:需要特定的软硬件才能获得平均延迟 基准测试 Benchmark的属性 可重复性(必须) 代表性(必须) 易用性(必须) 可验性(必须) 时间可测性(可选) 完全覆盖性(条件依赖) 精确性(条件依赖) 基准测试 基准测试程序(Benchmark) LINPACK、LAPACK、BLAS、BLACS、Livermore Loops、Dhrystone、Whetstone、NAS、SPEC、Sim LinPACK:Top500的标准测试程序 性能分析工具 监视程序的执行、产生性能数据、甚至能够作初步分析,以帮助确定性能瓶颈 DEEP 、MPE和Jumpshot 、Pablo、Paradyn Thanks * * * * * * * * * * * * * * * * * * * * * * * * * * 存储器性能 存储器的层次结构(C,L,B) 存储器性能 估计存储器的带宽 RISC add r1,r2,r3 r 8bytes 100MHz B = 3*8*100*106 B/s= 2.4GB/s 并行与通信开销 并行和通信开销:相对于计算很大 PowerPC (每个周期 15ns 执行4flops; 创建一个进程1.4ms 可执行372000flops) 开销的测量: 乒乓方法(Ping-Pong Scheme)节点0发送m个字节给节点1;节点1从节点0接收m个字节后,立即将消息发回节点0。总的时间除以2,即可得到点到点通信时间,也就是执行单一发送或接收操作的时间 乒乓法 if (my _node _id =0) then /*发送者*/ start _time =second( ) send an m-byte message to node 1 receive an m-byte message from node 1 end_time = second( ) total_time = end_time – start_time communication_time[i] = total_time/2 else if (my_node_id = 1) then /*接收者*/ receive an m-byte message from node 0 send an m-byte message to node 0 endif 乒乓法 可一般化为热土豆法(Hot-Potato),也称为救火队法(Fire-Brigade) 0——1 —— 2 —— … —— n-1 —— 0 并行开销的表达式:点到点通信 通信开销 t(m) = t0 + m/ r∞ 通信启动时间 t0 渐近带宽r∞ :传送无限长的消息时的通信速率 半峰值长度m1/2 :达到一半渐近带宽所要的消息长度 特定性能π0:表示短消息带宽 t0 = m1/2 / r∞ = 1 /π0 并行开销的表达式:整体通信 典型的整体通信有: 播送(Broadcasting):处理器0发送m个字节给所有的n个处理器 收集(Gather):处理0接收所有n个处理器发来在消息,所以处理器0最终接收了m n个字节; 散射(Scatter):处理器0发送了m个字节的不同消息给所有n个处理器,因此处理器0最终发送了m n个字节; 并行开销的表达式:整体通信 全交换(Total Exchange):每个处理器均彼此相互发送m个字节的不同消息给对方,所以总通信量为mn2个字节; 循环移位(Circular-shift):处理器i发送m个字节给处理器i+1,处理器n-1发送m个字节给处理器0,所以通信量为m n个字节。 机器的成本、价格与性/价比 机器的成本与价格 机器的性能/价格比 Pe
文档评论(0)