Cell体系结构总揽【荐】.docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Cell体系结构总揽【荐】.doc

Cell体系结构总揽 一、引 言 由Sony, Toshiba和IBM(简称STI联盟)最初为PlayStation 3设计的“Cell处理器”是一个高性能分布式体系结构Cell包括硬件Cell和软件CellCell采用多核技术,主要由一个PPE和8个SPE通过EIB总线联结构成,各个单元协作且并行地处理计算机任务;软件Cell包括数据和程序,它们被送往硬件Cell进行计算并返回结果。CellCell处理器的影响不仅仅局限于游戏市场,而将遍布整个计算机工业界。Cell在图形领域的优势是明显的:3D图形所具有的巨大并行性以及可向量化和流水化处理的特征,而Cell中的多个SPE能对其进行大幅度加速;而数字信号处理中主要使用的FFT(快速傅立叶变换)算法也是一个高度可向量化的算法,Cell的向量化与高并行性将使Cell处理器成功地运用于DSP领域;除此之外,Cell处理器可有效运用于超级计算,服务器,流处理应用等多个领域。 然而,Cell处理器与有限主存的速度及性能之间的差距越来越大,主存成为Cell体系结构计算机整体性能提高的瓶颈;Cell采用RISC指令集结构,虽然提高硬件执行效率,但增加了编译器的负担;Cell处理机中多核的功耗和散热量也是Cell体系结构发展的一个制约因素;目前基于Cell体系结构的程序开发工具很少,Cell体系结构计算机对程序并发性和可向量化要求很高,程序难于编写,程序的可移值性和兼容性也存在问题。 本文第二部分分析了Cell体系结构从技术上产生的背景;接着第三部分介绍了Cell处理器内部各个部件的结构,在此基础上第四部分比较了Cell体系结构与其他体系结构的优缺点;第五部分简要介绍了Cell应用情况。 二、Cell体系结构提出的背景 2.1 RISC指令集结构的优点 Cell处理器中PPE和SPE都采用RISC指令集结构,下面从CISC的不足,针对CISC不足进行改进的RISC的优点以及RISC面临的问题三方面进行分析。 CISC的不足 复杂指令集计算机强化指令功能,实现软件功能向硬件功能转移,减少指令条数来提高计算机性能。然而这一设计将使得指令的使用频率相差悬殊,指令没有得到充分利用;指令集本身的复杂性也带来了计算机体系结构的复杂性,这不仅增加了研制时间和成本,也容易造成设计失误。指令集中各条指令功能不均衡,执行时间不同,不利于采用计算机体系结构的相关技术来提高性能,许多指令需要复杂的操作,因而运行速度慢。 RISC的优点 针对CISC指令集结构的不足,在20年代80年代RISC指令集结构发展了起来。RISC指令集结构采用定量化设计计算机体系结构的方法,选取使用频率最高和最有用的指令,使每条指令的功能尽可能简单,并在一个机器周期内完成,指令长度均相同,只有Load指令和Store指令访问存储器,其他指令均在寄存器之间进行,以简单有效的方式支持高级语言,大大提高系统性能。 RISC面临的问题 当指令集精简和高效到达一定程度之后,系统性能的提高将面临瓶颈,只靠改进指令集的设计来提高计算机性能的作用将越来越小;当时钟频率提高到一定程度后,成倍的并不会给厂商们带来相应的功耗和散热Transmeta公司曾经设计过一款名为VLIW Crusoe的芯片。该款芯片的设计理念是尽可能的简化芯片的构造,把复杂的事情交给软件去做,从而提高硬件的运行速度。然而,这种设想没有得到成功。原因在于,把处理器的复杂性转移到软件上,意味着把复杂性放到了主存里。这样,就在CPU和主存间的鸿沟进一步扩大,增加了延时。 CPU发展有三个阶段。第一个,指令被静态调度,没有Instruction Window); 第二个,处理单元的数目得到提高(比如有多个整数和浮点运算单元等)。Cache的大小也得到增加,因而有更多的指令和数据可以存在Cache中。此时,引入。指令得以在中被重新调度,再输出给不同的处理单元并行处理;第三个,处理单元的数量也得到了一定增加(比如加入向量处理单元)流水线深度增加导致了在每个时钟周期,有更多的执行空间(execution slots)需要填补;也就是说需要找到更多的,可以并行执行的指令。因而里的工作量就增加了很多。 从发展的趋势来看。运算单元的增加,会导致储存单元与运算单元的距离越来越远。从大的方面来看,CPU数量的增加,会导致主存与CPU之间的距离的增加;从小的方面来看,CPU中处理单元的增加,会使Cache与处理单元间(ALU等)的距离越来越远。这里,更远的距离,意味着更大的延迟。Cell体系结构较之Crusoe芯片能够成功的关键在于Cell体系结构重新运用了RISC的思想,采用了多核技术以及Local store技术,扔掉了contro

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档