- 1、本文档共114页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
智能计算系统
第六章面向深度学习的
处理器原理;运行;
用来处理智能任务的处理器
可以是CPU、GPU、FPGA等
也可以是专用的深度学习处理器(DLP);提纲;为什么选用通用处理器?
普及:每台计算设备都包含CPU
廉价:1分钱获得完备的处理能力
灵活:可与其他任何任务共享计算硬件
适用小模型、少量数据、成本敏感的推理场景;6;7;8;9;10;1930年代~1940年代;1940年代~1950年代;13;冯·诺依曼结构
包含控制器、运算器、存储器和输入/输出。
“存储程序”:指令从主存储器中取出
;冯·诺依曼结构
包含控制器、运算器、存储器和输入/输出。
“存储程序”:指令从主存储器中取出
;16;自动暂存最近读取的数据,以备不久之后再次使用
通常使用SRAM实现
;哈佛结构
指令缓存和数据缓存分离
允许同时进行取指和访存,互不干扰
;精简指令集结构(RISC)
关键原则:通过专门的load/store指令访存
实践中,处理器内部将复杂指令首先译为RISC微码;分支指令:由运算器计算出下一条指令的地址
分支指令计算完成前,暂停取指!;多发射:多条互不相关的指令可以同时发射
可能同时利用多个运算器;地址生成单元:专用于计算访存地址的运算器
可以高效支持多种寻址模式;寄存器重命名:将寄存器编号与物理寄存器相分离
消除伪相关,提高指令同时执行的机会;乱序执行,有序提交
实现精确例外,可以撤销已执行的指令;写入/写出队列:暂存已执行、未提交的访存指令
可以连续发起load/store指令,未提交前可以撤销;数据前递:上一指令运算结果直接送入下一指令运算单元
可以省去连续运算时反复写入、读出寄存器的动作;分支预测:未确定跳转方向时,按猜测方向投机执行
预测正确时:减少等待时间,提高了流水线效率
预测错误时:不予提交,撤销错误执行的指令;运算只占1%?
以标量作为基本运算粒度
需要更多指令来执行
任意指令间都潜在依赖,控制很复杂
“内存墙”现象
越来越大、越来越多层次的缓存;29;降低控制开销:循环展开(Loopunrolling);降低控制开销:循环展开(Loopunrolling)
降低寻址开销:强度削减(Strengthreduction);降低控制开销:循环展开(Loopunrolling)
降低寻址开销:强度削减(Strengthreduction)
均为通用技巧,现代编译器已经尽力而为。
没有非常有效的优化方法!
为什么?;降低控制开销:循环展开(Loopunrolling)
降低寻址开销:强度削减(Strengthreduction)
均为通用技巧,现代编译器已经尽力而为。
没有非常有效的优化方法!
通用处理器为通用性而设计,深度学习只是其中一种应用;
虽然深度学习程序行为规整,仍需较多指令才能定义清晰。;降低控制开销:循环展开(Loopunrolling)
降低寻址开销:强度削减(Strengthreduction)
均为通用技巧,现代编译器已经尽力而为。
没有非常有效的优化方法!
通用处理器为通用性而设计,深度学习只是其中一种应用;
虽然深度学习程序行为规整,仍需较多指令才能定义清晰。
每访问一个数据,都必须计算其地址,并控制循环条件!;容量失效:循环访问数据超过缓存容量,LRU缓存失效;36;37;分块(tiling):将运算分解至固定尺寸的区块处理;通用处理器上实现矩阵乘法,这两种实现方式:
递归(分治法)
谁更高效?;通用处理器上实现矩乘,这两种实现方式:
递归(分治法)
谁更高效?没有定论!需要通过测试来确认。;通用处理器独特的优势:普及、廉价、灵活
缺陷:较高的控制、寻址开销;复杂的访存优化策略。
控制、寻址开销仅凭软件优化难以改善。
如何从架构上改善?;通用处理器独特的优势:普及、廉价、灵活
缺陷:较高的控制、寻址开销;复杂的访存优化策略。
控制、寻址开销仅凭软件优化难以改善。
如何从架构上改善?
观察:深度学习处理数据以向量、矩阵为主,数量较多。;通用处理器独特的优势:普及、廉价、灵活
缺陷:较高的控制、寻址开销;复杂的访存优化策略。
控制、寻址开销仅凭软件优化难以改善。
如何从架构上改善?
观察:深度学习处理数据以向量、矩阵为主,数量较多。
思路:允许一条指令并行操作多个数据?;通用处理器独特的优势:普及、廉价、灵活
缺陷:较高的控制、寻址开销;复杂的访存优化策略。
控制、寻址开销仅凭软件优化难以改善。
如何从架构上改善?
观察:深度学习处理数据以向量、矩阵为主,数量较多。
思路:允许一条指令并行操作多个数据?
预期效果:摊薄控制和寻址开销!;提纲;来源于Flynn分类法(1972);来源于Flynn分类法(1972);允许一条指令并行操作多个数据;允许一条指令并行操作多个数据
文档评论(0)