95MIMD异步通信模型的并行算法..docVIP

下载本文档

2
0
约9.21千字
约 11页
2017-01-09 发布于重庆
举报
版权申诉

95MIMD异步通信模型的并行算法..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

95MIMD异步通信模型的并行算法.

9.5 MIMD异步通信模型的并行算法（一）快速排序并行算法快速排序(Quick Sort)是一种最基本的排序算法，它的基本思想是，在当前无序序列R[1,n]中取一个记录作为比较的基准，用此基准将当前的无序序列R[1,n]划分成两个无序序列R[1,i-1]和R[i,n](1≤i≤n)，且R[1,i-1]中记录的所有关键字均小于等于基准的关键字，R[i,n]中记录的所有关键字均大于等于基准的关键字；当R[1,i-1]和R[i,n]非空时，分别对他们重复上述的划分过程。对每次划分过后所得到的两个序列分别使用两个处理器完成递归排序。例如对一个长为n的序列，首先划分得到两个长为n/2的序列，将其交给两个处理器分别处理；而后进一步划分得到4个长为n/4的序列，在分别交给4个处理器处理；如此递归下去最终得到排序号的序列[1001]。该并行算法的描述如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 算法9.5.1 快速排序并行算法输入：无序数组data[1,n]，使用的处理器个数2m 输出：有序数组data[1,n] SORT { para_quicksort(data,1,n,m,0); } para_quicksort(data,i,j,m,id) { if ((j-i)≤k||m==0) { Pid: quicksort(data,i,j); } else { Pid: r=partition(data,i,j); Pid send data[r+q,m-1] to Pid+2m-1; para_quicksort(data,I,r-1,m-1,id); para_quicksort(data,r+1,j,m-1,id+2m-1); Pid+2m-1 send data[r+1,m-1] to Pid; } } 在最优的情况下该并行算法形成一个高度为log n的排序树，其计算复杂度为O(n)，通信复杂度为O(n)；在最坏情况下其计算复杂度降为O(n2)；正常情况下该算法的计算复杂度为O(n)。（二）二维网孔上的矩阵转置并行算法网孔上的矩阵转置并行算法思路是，实现矩阵转置时，若处理器个数为p，且它们的编号依次是0,1,…,p-1，则将n阶矩阵A分成p个大小为m×m的子块，m= 。p个字块组成一个×的子块阵列。记其中第i行第j列的子块为Aij，它含有A的第(i-1)m+1至第im行中的第(j-1)m+1至第jm列的所有元素。对每一处理器按行主方式赋以二维下标，记编号为i的处理器的而为下标为(v,u)，其中v= ，u=i mod，将A的子块存入下标为(v,u)表示的对应处理器中。这样，转置过程分两步进行：第一步，子块转置，具体过程如图9_22所示；第二步，处理器内部局部转置。图9_22 子块转置为了避免对应子块交换数据时处理器发生死锁，可令下三角子块先向与之对应的上三角子块发送数据，然后从上三角子块接收数据；上三角子块先将数据存放在缓冲区buffer中，然后从与之对应的下三角子块接收数据；最后再将缓冲区中的数据发送给下三角子块[1001]。该并行算法的描述如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 算法9.5.2 矩阵转置并行算法输入：矩阵An×n 输出：矩阵An×n的转置矩阵ATn×n transposed matrix { /*对所有处理器my_rank(my_rank=0,…,p-1) */ v?my_rank/sqrt(p); /*计算子块的行号*/ u?my_rank mod sqrt(p); /*计算子块的列号*/ if(uv) /*对存放下三角块的处理器*/ { send所存的子块to其对角块所在的处理器; receive其对角块所在的处理器中发来的子块; } else /*对存放上三角块的处理器*/ { 将所存的子块在缓冲区buffer中做备份; receive其对角块所在的处理器中发来的子块; send buffer中所存子块to其对角块所在的处理器; } for(i=1;i=m;i++) /*处理器内部局部转置*/ { for(j=1;j=i;j++) { 交换a[i,j]和a[j,i]; } } } 若记ts为发送启动时间，tw为单位数据传输时间，th为处理器间的延迟时间，则第一步由于每个子块有n2/p个元素，又由于通信过程中为了避免死锁，错开下三角子块与上三角子块的发送顺序，因此子块的交换时间为；第二步，假定一对数据的交换时间为一个单位时间，则局部转置时间为n2/2p。因此所需的并行计算时间。矩阵并行分块乘法算法矩阵并行