第一章高等计算机的核心技术——并行处理选编.ppt

第一章高等计算机的核心技术——并行处理选编.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章高等计算机的核心技术——并行处理选编

高等计算机系统结构;高等计算机系统结构;第一章 高等计算机的核心技术——并行处理;1.1 什么是并行处理; 同时性(simultaneity)——两个或多个事件在同一时刻发生。 并发性(concurrency)——两个或多个事件在同一时间间隔内发生。 流水特性(pipelining)——在一个重叠的时间内所发生的流水事件。 ; 1.1.2 并行性级别 粒度(granularity):衡量一个软件进程的计算量的度量。最简单的是指此程序段中的指令数。分细、中、粗三种。 按粒度的不同,并行性级别可以分为指令级、循环级、过程级、子程序级和作业级等不同的层次。它们对应的计算粒度可以为细粒度、中粒度和粗粒度。; 1.指令级并行 典型细粒度,一般少于20条指令。借助优化编译器自动检测并行性,将源代码变成运行时系统能识别的并行形式。 2.循环级并行 典型??环含少于500条指令,由于有些循环操作在连续迭代中并不相关,易于向量化,是在并行机或向量机上运行的最优程序结构。递归循环的并行化比较困难。向量处理由优化编译器在循环级开发,仍属于细粒度计算。; 3.过程级并行 中粒度并行,指令少于2000条,分析过程间的并行性比细粒度要困难。有时需要重新设计程序,并要编译器的支持。SPMD、多任务处理属于这一层。 4.子程序级并行 (粗)中粒度并行,几千条指令,常在message passing多计算机上以SPMD或MPMD方式执行。并行性主要由算法设计人员与程序员开发。 ; 5.作业级并行 粗粒度并行,数万条指令,常由加载程序和操作系统处理这类并行性,靠算法有效性来保证。 一般说来: 细粒度:用并行化或向量化编译器来开发,共享变量通信支持。 中粒度:靠程序员和编译器一起开发,共享变量通信。 粗粒度:取决于操作系统和算法的效率,消息传递通信。 ; 例子:共享存储型多处理机上执行: L1: DO 10 I=1, N L2: A(I)=B(I)+C(I) L3: 10 Continue L4: SUM=0 L5: DO 20 J=1, N L6: SUM=SUM+A(J) L7: 20 Continue ; 假设:L2,L4,L6每行要用一个机器周期。 L1,L3,L5,L7所需时间可以忽略。 所有数组已经装入主存,程序已装入Cache中(取指令和加载数据可以忽略不计)。 忽略总线争用或存储器访问冲突。 上面的程序实际上把数组B(I)和C(I)相加,最后得到一个总和。; 共享存储多处理机结构如下图:; 在单机系统中,2N个周期可以完成上述的操作: I循环中执行N次独立迭代需要N个周期; J循环中执行N次递归迭代也需要N个周期。 ; 在共享存储型的多处理机系统上: 假设有M台处理机,可以将循环分成M段,每段有L = N/M个元素。 代码如下所示:; Doall k= 1, M Do 10 I= L(k-1) + 1 , kL A(I) = B(I) +C(I) 10 Continue SUM(k)=0 Do 20 J=1 , L SUM(k)= SUM(k)+A(L(k-1)+J) 20 Continue Endall; 分段的I循环可以在L个周期中完成; 分段的J循环在L个周期中产生M个部分和。 所以产生所有的M个部分和共需要2L个周期(还需要将这些部分和合并)。 假设经过共享存储器的处理机之间的每次通信操作需要k个周期。 ; 设N=32,M=8,则经过2L(即8个周期)后在8台处理机上各有一个部分和,还需要8个数相加。 为了合并部分和,可以设计一个l层的二进制加法树,其中l=log2M,加法树用l(k+1)个周期从树叶到树根顺序合并M个部分和,如下:; 二进制加法树:; 假定数组中有N=220个元素,顺序执行需要2N=221个机器周期,假设机器间通信的开销平均值为k = 200个周期,则在M=256台处理机的并行执行需要:;第一章 高等计算机的核心技术——并行处理;1.2 为什么要开发并行处理技术; 1.天气预报 1990年10次台风登陆,福建、浙江两省损失79亿元,死亡950余人。 天气预报模式为非线性偏微分方程,预报台风暴雨过程,计算量为1014—1016次浮点运算,需要10GFlops—100GFlops的巨型机。 用途:局部灾害性天气预报。; 2.石油工业

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档