- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
并行处理机和多处理的机
第八章 并行处理机和多处理机 并行处理机又叫SIMD计算机。它是单一控制部件控制下的多个处理单元构成的阵列,所以又称为阵列处理机。 多处理机是由多台独立的处理机组成的系统。 并行处理机结构和实例 多处理机结构和实例 目前的大部分并行处理机是基于分布式存储器模型的系统。 比较容易构成MPP(Massively Parallel Processor),几十万个PE。 必须依靠并行算法来提高PE的利用率。因此,应用领域很有限。 CU是控制部件,执行标量指令,并把向量指令广播到各个PE中。在CU中通常有一个较大容量的存储器。 IOP是输入输出处理机,或称为主机。在IOP上安装操作系统,它除了负担输入输出工作外,还负责程序的编辑、编译和调试等工作。 数据在局部存储器中的分布是一个很关键的问题。 标量指令与向量指令可以并发执行。 共享的多体并行存储器 SM 通过互连网络与各处理单元PE相连。 存储模块的数目等于或略大于处理单元的数目。 同时在存储模块之间合理分配数据,通过灵活、高速的互连网络,使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行,而最少受存储冲突的影响。 共享存储器模型的处理单元数目一般不多,几个至几十个。 Burroughs Scientific Processor (BSP)采用了这种结构。16个PE通过一个16×17的对准互连网络访问17个共享存储器模块。 存储器模块数与PE数互质可以实现无冲突并行访问存储器。 并行处理机的主要特点如下: 速度快,特别适于高速数值计算。 SIMD依靠的是资源重复,而不是时间重叠。它依靠增加PE个数,与流水线处理机主要依靠缩短时钟周期相比,其提高速度的潜力要大得多。 依赖于互连网络和并行算法。互连网络决定了PE之间的连接模式,也决定了并行处理机能够适应的算法。 需要有一台高性能的标量处理机。如果一台机器的向量处理速度极高,但标量处理速度只是每秒一百万次,那么对于标量运算占10%的题目来说,总的有效速度就不过是每秒一千万次。 SIMD基本上是一台向量处理专用计算机。尽管它有一个功能很强的控制部件实际上起作标量处理机的作用,但仍然必须和一台高性能单处理机配合工作,使后者担负系统的全部管理功能。 IlliacIV 是最先采用SIMD结构的并行机 随后一个方向是用位片PE制造的并行机,如Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以SIMD模式运行的同步MIMD计算机。另一方向是用字宽运算PE的中粒度SIMD计算机。 并行处理机的两个发展方向: 保留阵列结构,但每个处理单元的规模减小,如一个bit。去掉阵列结构和分布存储器。 Burroughs公司的BSP是典型代表。 GF-11是由IBM Watson实验室研制、作科学模拟研究用的。MasPar MP1是中粒度并行处理机的典型代表。 下面介绍并行处理机的两种典型代表: 采用阵列结构分布存储器的IlliacIV并行处理机 去掉阵列结构和分布存储器BSP并行处理机。 1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。 1966年美国国防远景研究规划局ARPR与伊利诺依大学签定合同。原计划:256个PE,每个PE每240ns处理一个64位的浮点数,每个局部存储器PEM为2K?64位,总的运算速度为1GFLOPS。 美国Burroughs公司和伊利诺依大学于1972年共同设计和生产,1975年实际投入运行。用了4倍的经费,只达到1/20的速度。只实现了8?8=64个PE,只达到50MFLOPS。 IlliacIV系统的影响非常大。它是并行处理机的典型代表,也是分布存储器并行处理机的典型代表。 IlliacIV系统由三大部分组成。IlliacIV处理机阵列,阵列控制器,一台标准的Burroughs B6700计算机。 1、IlliacIV处理阵列 IlliacIV处理阵列由8′8=64个PU组成。每个PU由处理部件PE和它的局部存储器PEM组成。 每一个PUi只和它的东、西、南、北四个近邻直接连接。{PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64} 南北方向上同一列的PU连成一个环,东西方向上构成一个闭合螺线。 采用闭合螺线最短距离不超过7步。而普通网格最短距离不超过8步。 例如:从PU0到PU36的距离:采用普通网格必须8步:PU0 ? PU1 ? PU2 ? PU3 ? PU4 ? PU12 ? PU20 ? PU28 ? PU36或 PU0 ? PU8 ? PU1
您可能关注的文档
- 密码正确但连不上去的的分析与解决方法.doc
- 对弧长曲线积分的.ppt
- 对条约的保留的.pdf
- 对标企业分析的.ppt
- 对称式共享存储器体的系结构.ppt
- 对经营者利用广告或的其他方式对商品或服务作引人误解虚....doc
- 对话框创建和使用的.ppt
- 对象及对象的三要素的.ppt
- 对阅读教学的几点建的议.1ppt.ppt
- 导出动画流程的.doc
- 2025年低空经济政策优化与产业协同发展驱动因素研究报告.docx
- 2025年新能源储能专用设备制造服务化转型策略研究报告.docx
- 2025年跨境电商海外营销中心移动端营销策略研究报告.docx
- 语言翻译教育行业市场细分分析:2025年线上平台发展机遇研究报告.docx
- 全球创新药物研发专利布局与市场竞争格局研究报告.docx
- 电商平台社交电商板块在2025年的市场增长潜力与可行性评估.docx
- 跨境电商厨房用品仓储自动化升级对仓储空间利用的影响报告.docx
- 跨区域职业教育实训基地共享模式研究:以新材料产业为例.docx
- 跨区域新能源电动叉车租赁2025年标准化市场调研报告.docx
- 跨区域新能源电动冷藏车辆智能温控系统2025年市场潜力与挑战报告.docx
最近下载
- 成都电子科技大学实验中学新初一均衡分班语文试卷.doc VIP
- 成都电子科技大学实验中学新初一分班数学试卷含答案.doc
- 固体废物热值测定实验.doc VIP
- 14J936变形缝建筑构造.pptx VIP
- ZrO2-III 液晶显示氧化锆氧量分析仪说明书.pdf VIP
- 轻松学中医系列——《药性赋》选讲-曾培杰.docx
- Schneider Electric施耐德EvoPacT™ HVX 12kV真空断路器 全新一代数字化中压配电产品 操作手册安装和用户指南(中文).pdf
- 数控车削加工技术课程思政教学改革实践案例.docx VIP
- KORG科音Pa700快速说明书.pdf
- 2025年6月浙江省杭州市高一地理学考模拟试卷 1 .pdf VIP
文档评论(0)