深度学习-0417.pptVIP

下载本文档

95
0
约5.42千字
约 45页
2018-01-21 发布于浙江
举报
版权申诉

深度学习-0417.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习-0417

对TrueNorth的评价不同于冯诺依曼架构，将处理、存储、通信集成在一起尝试在硅片中模仿人脑以大规模平行方式处理信息向社会步入认知计算机时代迈出重要一步短期看，TrueNorth情况不乐观生态系统差编程困难缺乏高效的训练算法不具备调整的灵活性典型神经网络芯片——IBM TrueNorth 2016年中科院计算所正式发布神经网络处理器寒武纪针对深度学习领域的专用芯片性能、功耗和面积上，比CPU/GPU有百倍优势寒武纪系列已包含四种原型处理器：寒武纪1号（英文名DianNao，面向神经网络的原型处理器结构）寒武纪2号（英文名DaDianNao，面向大规模神经网络）寒武纪3号（英文名PuDianNao，面向多种机器学习算法）寒武纪4号（英文名ShiDianNao，面向视频处理特定领域）配套首个深度学习指令集Cambricon(DianNaoYu) 直接面对大规模神经元和突触的处理一条指令即可完成一组神经元的处理对神经元和突触数据传输提供一系列支持典型神经网络芯片——寒武纪DianNao 片上存储：芯片内含三块片上存储，用于存储input的NBin、output的NBout和神经网络模型权重参数的SB；片上存储与片外通过DMA通信运算逻辑：核心计算部件为由三级流水线组成NFU NFU和片上存储的时分复用：运行时，网络模型参数依次被加载到SB，每层神经layer的输入数据被依次加载到NBin，layer计算结果写入到NBout NFU里基础计算不会与具体的神经元或权重参数绑定灵活性和尺寸相较于全硬件方案有明显改进典型神经网络芯片——寒武纪DianNao DianNao是寒武纪系列的第一个原型处理器结构单核，主频0.98GHz，峰值性能每秒4520亿次神经网络基本运算 65nm工艺，面积3.02mm2，功耗0.485W，性能超主流CPU核100倍，面积和功耗仅为1/10 性能与主流GPU相当，面积和功耗仅为1/100 典型神经网络芯片——寒武纪DianNao DaDianNao在DianNao的基础上进一步扩大处理器的规模 16个处理器核和更大的片上存储多芯片间直接高速互连，避免内存访问开销 28nm 工艺，主频606MHz，面积67.7mm2，功耗16W 性能超过主流GPU 21倍，能耗仅为主流GPU的1/330 典型神经网络芯片——寒武纪DianNao 多用途机器学习处理器PuDianNao 支持k-最近邻、支持向量机、神经网络等近十种代表性机器学习算法主频为1GHz，峰值性能每秒10560亿次基本操作 65nm工艺，面积3.51mm2，功耗0.596W 性能与主流GPU相当，面积和功耗仅为主流GPGPU百分之一量级典型神经网络芯片——寒武纪DianNao 2016年成果ShiDianNao 传感器可直接对图像进行流式识别处理，消除对图像的读写操作用比较小的卷积神经网络在芯片上处理，消除对模型的读写操作 65nm工艺，面积4.86mm2，功耗0.32W 性能与CPU/GPU/专用加速器比，有50/30/2倍的提升典型神经网络芯片——寒武纪DianNao 应用案例：ShiDianNao在系统中进行深度学习的模式识别，经训练后具有类似人脑的识别能力，可从图像中识别出猫正在进行商业化推广，将寒武纪IP盒子或芯片嵌入到传统手机或个人电脑主板，极大提高处理速度典型神经网络芯片——寒武纪DianNao 寒武纪系列芯片的技术突破：突破了内存带宽的主要性能瓶颈，通过 EDRAM 技术及多芯片互联，保证神经网络模型完整放于片上，完全无需访问内存突破了片上通讯导致的延迟和功耗，分成的每块内部包含运算部件、神经元数据、突触数据，可以减少 90% 以上片上通讯时间突破了机器学习算法、变种众多的困难，采用可编程 VLIM 处理其结构以及灵活的运算部件，支持几乎所有现有的主流机器学习算法典型神经网络芯片——寒武纪DianNao 2016年谷歌透露其机器学习专用芯片张量处理器TPU，并于2017年4月官方详细介绍TPU 专为深度学习框架TensorFlow进行的ASIC设计脉动阵列处理结构：数据向运算阵列传递和处理有严格流程规定处理峰值92TOPS，比 GPU 和 CPU 快 15 到 30 倍功耗75W，能效比 GPU 和 CPU提升了30 到 80 倍典型神经网络芯片——谷歌TPU 针对深度学习的定制化设计主要计算部件是黄色256*256的8位矩阵乘法单元、非线性神经元计算单元（Activation），及用于归一化和池化的计算单元输入是蓝色的权重数据队列FIFO和蓝色的统