网站大量收购闲置独家精品文档,联系QQ:2885784924

智能计算系统:从深度学习到大模型 第2版课件 6、第六章-面向深度学习的处理器原理.pptx

智能计算系统:从深度学习到大模型 第2版课件 6、第六章-面向深度学习的处理器原理.pptx

  1. 1、本文档共114页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

智能计算系统

第六章面向深度学习的

处理器原理;运行;

用来处理智能任务的处理器

可以是CPU、GPU、FPGA等

也可以是专用的深度学习处理器(DLP);提纲;为什么选用通用处理器?

普及:每台计算设备都包含CPU

廉价:1分钱获得完备的处理能力

灵活:可与其他任何任务共享计算硬件

适用小模型、少量数据、成本敏感的推理场景;6;7;8;9;10;1930年代~1940年代;1940年代~1950年代;13;冯·诺依曼结构

包含控制器、运算器、存储器和输入/输出。

“存储程序”:指令从主存储器中取出

;冯·诺依曼结构

包含控制器、运算器、存储器和输入/输出。

“存储程序”:指令从主存储器中取出

;16;自动暂存最近读取的数据,以备不久之后再次使用

通常使用SRAM实现

;哈佛结构

指令缓存和数据缓存分离

允许同时进行取指和访存,互不干扰

;精简指令集结构(RISC)

关键原则:通过专门的load/store指令访存

实践中,处理器内部将复杂指令首先译为RISC微码;分支指令:由运算器计算出下一条指令的地址

分支指令计算完成前,暂停取指!;多发射:多条互不相关的指令可以同时发射

可能同时利用多个运算器;地址生成单元:专用于计算访存地址的运算器

可以高效支持多种寻址模式;寄存器重命名:将寄存器编号与物理寄存器相分离

消除伪相关,提高指令同时执行的机会;乱序执行,有序提交

实现精确例外,可以撤销已执行的指令;写入/写出队列:暂存已执行、未提交的访存指令

可以连续发起load/store指令,未提交前可以撤销;数据前递:上一指令运算结果直接送入下一指令运算单元

可以省去连续运算时反复写入、读出寄存器的动作;分支预测:未确定跳转方向时,按猜测方向投机执行

预测正确时:减少等待时间,提高了流水线效率

预测错误时:不予提交,撤销错误执行的指令;运算只占1%?

以标量作为基本运算粒度

需要更多指令来执行

任意指令间都潜在依赖,控制很复杂

“内存墙”现象

越来越大、越来越多层次的缓存;29;降低控制开销:循环展开(Loopunrolling);降低控制开销:循环展开(Loopunrolling)

降低寻址开销:强度削减(Strengthreduction);降低控制开销:循环展开(Loopunrolling)

降低寻址开销:强度削减(Strengthreduction)

均为通用技巧,现代编译器已经尽力而为。

没有非常有效的优化方法!

为什么?;降低控制开销:循环展开(Loopunrolling)

降低寻址开销:强度削减(Strengthreduction)

均为通用技巧,现代编译器已经尽力而为。

没有非常有效的优化方法!

通用处理器为通用性而设计,深度学习只是其中一种应用;

虽然深度学习程序行为规整,仍需较多指令才能定义清晰。;降低控制开销:循环展开(Loopunrolling)

降低寻址开销:强度削减(Strengthreduction)

均为通用技巧,现代编译器已经尽力而为。

没有非常有效的优化方法!

通用处理器为通用性而设计,深度学习只是其中一种应用;

虽然深度学习程序行为规整,仍需较多指令才能定义清晰。

每访问一个数据,都必须计算其地址,并控制循环条件!;容量失效:循环访问数据超过缓存容量,LRU缓存失效;36;37;分块(tiling):将运算分解至固定尺寸的区块处理;通用处理器上实现矩阵乘法,这两种实现方式:

递归(分治法)

谁更高效?;通用处理器上实现矩乘,这两种实现方式:

递归(分治法)

谁更高效?没有定论!需要通过测试来确认。;通用处理器独特的优势:普及、廉价、灵活

缺陷:较高的控制、寻址开销;复杂的访存优化策略。

控制、寻址开销仅凭软件优化难以改善。

如何从架构上改善?;通用处理器独特的优势:普及、廉价、灵活

缺陷:较高的控制、寻址开销;复杂的访存优化策略。

控制、寻址开销仅凭软件优化难以改善。

如何从架构上改善?

观察:深度学习处理数据以向量、矩阵为主,数量较多。;通用处理器独特的优势:普及、廉价、灵活

缺陷:较高的控制、寻址开销;复杂的访存优化策略。

控制、寻址开销仅凭软件优化难以改善。

如何从架构上改善?

观察:深度学习处理数据以向量、矩阵为主,数量较多。

思路:允许一条指令并行操作多个数据?;通用处理器独特的优势:普及、廉价、灵活

缺陷:较高的控制、寻址开销;复杂的访存优化策略。

控制、寻址开销仅凭软件优化难以改善。

如何从架构上改善?

观察:深度学习处理数据以向量、矩阵为主,数量较多。

思路:允许一条指令并行操作多个数据?

预期效果:摊薄控制和寻址开销!;提纲;来源于Flynn分类法(1972);来源于Flynn分类法(1972);允许一条指令并行操作多个数据;允许一条指令并行操作多个数据

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档