片上多核处理器架构.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
片上多核处理器架构.ppt

Investigation of Design and Programmability of a Common Parallel Implementation Language 片上多核处理器架构 Qi Zhang (张琦) CS, USTC xiaoga@ Dec. 2007 提纲 片上多核处理器 IBM 2001,双核RISC处理器Power4 2006,Cell处理器 HP 2004,PA-RISC8800双核处理器 SUN 2004,UltraSPARC IV双核处理器 AMD 2005,Opteron(酷龙,服务器和工作站) 2005,Athlon 64 X2双核系列(速龙,台式机) 2007,Barcelona四核(巴塞罗那) INTEL 2006,Woodcrest (Xeon 5100) 2006,Clovertown四核 发展趋势 提高处理器性能 提高主频 更多核心 主频的提高带来功耗的提高,传统的体系结构技术已面临瓶颈,纷纷转向多线程和多内核。 片上多核处理器体系结构 CMP (Chip Multi-Processor) 将多个计算内核集成在一个处理器芯片中,从而提高计算能力 同构多核 Intel,AMD 异构多核 Cell (主处理核+协处理核) 核间通信 硬件结构必须支持核间通信 CMP处理器各核心执行的程序之间需要进行数据共享和同步 高效的通信机制是CMP处理器高性能的重要保障 主流片上高效通信机制 基于总线共享的cache结构 基于片上的互连结构 总线共享cache结构 每个CPU内核拥有共享的二级或三级cache (last level cache),用于保存比较常用的数据,并通过连接核心的总线进行通信。 优点 结构简单 通信速度高 缺点 基于总线的结构可扩展性较差 基于片上互连的结构 每个CPU核心具有独立的处理单元和cache,各个核心通过交叉开关或片上网络等方式连接在一起,各个核心间通过消息通信。 优点 可扩展性好 数据带宽有保证 缺点 硬件结构复杂 软件改动较大 如何有效地利用多核技术? 现状 客户端应用程序开发者多年来一直停留在单线程世界,生产“顺序软件”。 多核时代到来后 软件开发者必须找出新的开发软件的方法,选择程序执行模型。 程序执行模型 编译器设计人员与系统实现人员之间的接口 编译器设计人员 将一种高级语言程序按一种程序执行模型转换成一种目标机器语言程序 系统实现人员 该程序执行模型在具体目标机器上的有效实现 程序执行模型的适用性决定多核处理器能否以最低的代价提供最高的性能 Intel Core微架构 Intel双核 Intel Conroe Intel Core微架构 Intel四核 Intel四核 AMD双核 AMD四核酷龙 Large shared L3 cache shares data between cores efficiently while helping reduce latency to main memory Dedicated L1 and L2 cache per core helps performance of virtualized environments and large databases by reducing cache pollution associated with a shared L2 cache The L1 cache of AMD Opteron processors can handle double the number of loads per cycle as Second-Generation AMD Opteron processors to help keep CPU cores busy Cell处理器架构 Tile64 TILE64? Processor Block Diagram Tile64? Processor Family The TILE64? family of multicore processors delivers immense compute performance to drive the latest generation of embedded applications. This revolutionary processor features 64 identical processor cores (tiles) interconnected with Tilera’s iMesh? on-chip network. Each tile is a complete full-featured processor, including integ

文档评论(0)

蝶恋花 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档