【可重构通用卷积神经网络分析5600字】.docxVIP

  • 0
  • 0
  • 约8.17千字
  • 约 26页
  • 2026-02-14 发布于河北
  • 举报

【可重构通用卷积神经网络分析5600字】.docx

可重构通用卷积神经网络分析

目录

可重构通用卷积神经网络分析 1

1.1运算硬件固化 1

1.2卷积神经网络通用可重构架构 4

1.2.1控制系统 4

1.2.2可重构系统的指令集 9

1.2.3控制系统的实现与仿真 13

1.3小结 14

卷积神经网络的层数、卷积核大小、通道数目存在不同。面向特定应用,可以通过改变层数、卷积核大小、通道数目提升卷积神经网络的准确度。为了适应卷积神经网络结构的变化,卷积神经网络加速器也应可重构。重构粒度严重影响系统的性能,细粒度可以提高更加灵活的重构,但通常不能读取数据,浪费带宽,影响系统的吞吐率。由于卷积神经网络的学习阶段可以通过GPU灵活实现,为此本章将开展面向推理应用的粗粒度可重构通过卷积神经网络加速器的设计。

1.1运算硬件固化

运算硬件固化的规模会影响系统的性能。在进行可重构通用网络加速研究过程中,可采用参数化的设计方案,便于面对应用更改运算硬件固化规模。即在设计整个系统过程中利用参数以及宏定义,进行模块化划分,每个模块设计包括模块例化都是参数传递,系统在芯片上进行固化前可根据整个芯片的资源,以及对并行度的需求进行修改。整个系统对片上资源需求主要包括乘法器、BRAM大小以及片外DDR的带宽。

系统的整体加速设计为N个输入特征图通道、M个输出特征图通道,以及卷积核大小K一起并行运算,整个并行卷积模块可进行调整,在卷积并行模块中,系统所需的乘法器资源是N×K×K×M,以及M×(N×K×K-1)个加法器,其中输入特征图通道N,输出特征图通道M,以及卷积核大小K,是可以进行更改,在固化整个系统时,需要保证片上资源具有N×K×K×M个乘法。整个系

统中最小的计算模块是卷积核并行的PE计算模块,其结构如图1.1所示,主要是乘法器和加法树组成。

×

×

乘法加法树

PE

图1.1PE计算模块

在输入特征图通道为N和输出特征图通道为M时,卷积模块需要N×M个PE模块,主要结构图如图1.2所示,输入特征图通道的数据进行复用,一个输入通道的数据要复用给M个PE模块进行卷积计算输出M个输出特征图通道的数据,在得到一个输出特征图通道时需要将N个输入特征图通道的卷积计算后结果进行累加。

PE模块

输入通道1输出通道1

输入通道1

输入通道N输出通道M

输入通道N

PE模块

N个输入通道

N*M个PE模块

M个输入通道

图1.2N×M个PE模块并行结构图

系统对于片上BRAM的需求,主要体现在临时缓存上,设置系统临时缓存越大,图像分块卷积越少,由于分块卷积会需要多读取K/2行数据,分块卷积越少带宽利用率越高。但是临时缓存过大,需求BRAM增多,因此大小需根据片上资源设计。设临时缓存深度为D,由于输出特征图通道个数为M,采用16位定点数据,则需要的缓存大小为P=D*16*M,在设计整个系统时,片上资源要大于P。

整个系统对DDR带宽的需求,主要是对输入特征图数据的读取,系统的工作频率为200MHz,整个系统的运算用的是16位定点数,则输入特征图对带宽的需求Q入如式1.1所示。

Q输入=N*16*200*10?(1.1)

由于设置了临时缓存,输出特征通道的数据对DDR带宽的需求与输入特征通道的总数有关,设一层卷积的输入特征图通道总数为n;N(i代表第几层),则每层的卷积每n;次循环输出一次M个输出特征图通道数据,其输出带宽Q输出需求如式1.2所示。

(1.2)

整个系统输入特征图通道数据和输出特征图通道数据对DDR的带宽需求Q总如式1.4所示。

Q总=Q输入+Q输出(1.3)

(1.4)

输入特征图通道N和输出特征图通道M都是参数化,设片上资源的总的带宽为Q,当QQ时系统能够保证高速运行,当片上带宽资源Q总QQ入时系统在循环卷积时由于卷积结果存储在临时缓存系统在全速运行,卷积最后一批次需要输出结果时,由于占用DDR会导致系统间歇停滞,在整个系统中设置反馈,当卷积结果无法写入DDR中,停止卷积运行,保证数据不丢失;当Q入Q时,系统会由于带宽无法正常运行,达不到预期的并行加速,在设计整个系统时,需

考虑带宽影响。

其他处理模块的硬件资源需求主要是逻辑单元和寄存器,在利用参数对模

文档评论(0)

1亿VIP精品文档

相关文档