l并行体系结构陈国良版课后答案.docVIP

下载本文档

191
0
约1.74万字
约 17页
2017-01-12 发布于北京
举报
版权申诉

l并行体系结构陈国良版课后答案.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

l并行体系结构陈国良版课后答案

习题设计计划 1．指导思想　　要求学生理解高端并行计算机系统设计技术，高端MPP、DSM、CLUSTER等大规模并行计算机的关键设计理论和实现技术，包括互连网络技术、存储架构和高可用技术等。为此，必须用适量的作业、习题，启发学生独立思考以及熟练掌握一些基础知识和基本技能。 2．作业安排　　本教材每一章都附有大量的习题，根据教学进度和学时，合理选择书上习题，以达到进一步加深理解课堂讲授的内容。每一章讲授结束，收一次作业，给出成绩，并作一次集体答疑，讲解作业中的共性问题。作业成绩记入总成绩内。 Ipsc/1、Ameteks/14等。 2）1988-1992年为第二代，代表机器有：Paragon、Intel delta等。 3）1993-1997年为第三代，代表机器有：MIT的J-machine。 1.8 简述并行计算机的访存模型答：1）均匀存储访问模型（UMA） 2）非均匀存储访问模型（NUMA） 3）全高速缓存存储访问模型（COMA） 4）高速缓存一致性非均匀访问模型（CC-NUMA） 1.9 简述均匀存储访问模型的特点答：1）物理存储器被所有处理器均匀共享。 2）所有处理器访问任何存储字的时间相同。 3）每台处理器可带私有高速缓存。 4）外围设备也可以一定的形式共享。 1.10简述非均匀存储访问模型的特点答：1）被共享的存储器在物理上分布在所有的处理器中，其所有的本地存储器的集合构成了全局的地址空间。 2）处理器访问存储器的时间不一样。 3）每台处理器可带私有高速缓存，外备也可以某种的形式共享。第二章性能评测 2.1 使用40MHZ主频的标量处理器执行一个典型测试程序，其所执行的指令数及所需的周期数如表2.13所示。试计算执行该程序的有效CPI、MIPS速率及总的CPU执行时间。解：CPI=total cycles / total instructions =（45000*1+32000*2+15000*2+8000*2）/（45000+32000+15000+8000） =1.55 MIPS=时钟频率 / (CPI*106)=(40*106) / (1.55*106)=25.8 CPU执行时间= total cycles /时钟频率=0.00375s 2.2欲在40MHZ主频的标量处理器上执行20万条目标代码指令程序。假定该程序中含有4种主要类型之指令，各指令所占的比例及CPI数如表2.14所示，试计算： ①在单处理机上执行该程序的平均CPI。 ②由①所得结果，计算相应的MIPS速率。解：（1）CPI=1*60%+2*18%+4*12%+8*10% =2.12 （2）MIPS=时钟频率 / (CPI*106)= (40*106) / (2.12*106)=18.9 2.3已知SP2并行计算机的通信开销表达式为：t（m）=46+（0.035）m ，渐近带宽r∞=? 半峰值信息长度 = ? [提示：to=46μs] 解：（1）渐近带宽r∞=1 / 0.035=28.6MB/S (2) 半峰值消息长度m1/2=to* r∞=46us*28.6MB/S=1315.6B 2.4并行机性能评测的意义。答：意义有： 1）发挥并行机长处，提高并行机的使用效率。 2）减少用户购机盲目性，降低投资风险。 3）改进系统结构设计，提高机器的性能。 4）促进软/硬件结合，合理功能划分。 5）优化 “结构-算法-应用”的最佳组合。 6）提供客观、公正的评价并行机的标准。 2.5如何进行并行机性能评测答：1）机器级性能评测：CPU和存储器的某些基本性能指标；并行和通信开销分析；并行机的可用性与好用性以及机器成本、价格与性/价比。 2）算法级性能评测：加速比、效率、扩展性。 3）程序级性能评测：Benchmark。 2.6 简述Gustafson定律的出发点答：1）对于很多大型计算，精度要求很高，即在此类应用中精度是个关键因素，而计算时间是固定不变的。此时为了提高精度，必须加大计算量，相应地亦必须增多处理器数才能维持时间不变。 2）除非学术研究，在实际应用中没有必要固定工作负载而计算程序运行在不同数目的处理器上，增多处理器必须相应地增大问题规模才有实际意义。 2.7 已知一程序可并行代码占比例为80%，将其在有10个处理器的系统中运行，求其加速比？并求其极限加速比？并分析其结构带来的影响解：加速比=1/(20%+80%/10)=1/(0.2+0.08)=3.57。极限加速比，即处理器个数无穷大的时候呈现的加速比=1/20%=5。这个极限加速比，换个角度说是，Amd