基于Zynq的FPGA加速器在推理框架上集成的实现.pdfVIP

  • 6
  • 0
  • 约10.62万字
  • 约 84页
  • 2025-10-13 发布于江西
  • 举报

基于Zynq的FPGA加速器在推理框架上集成的实现.pdf

摘要

随着深度学习的迅速发展,AI在端侧的应用从基础的图像分类延伸到现

在诸如图像降噪等复杂的下游任务,神经网络的计算量也在持续上升,基于

CPU后端的推理框架难以应对神经网络规模的膨胀。端侧设备相比于云端,其

需求及任务较为单一,因此可以使用领域专用加速器(DomainSpecific

Accelerator,DSA)代替CPU后端以应对神经网络规模膨胀的问题。但是现有

的端侧DSA对于神经网络的部署不友好,远不如基于CPU后端的推理框架快

速便捷。

本文主要是针对深度神经网络在端侧部署存在的上述问题,以FPGA加速

器NVDLA和端侧推理框架ncnn为基础,研究并设计实现了NVDLA作为

DSA后端集成到ncnn框架的方案,主要的研究内容与成果如下:

第一部分是针对NVDLA模型部署工具链仅支持部署Caffe模型的问题,

通过设计实现NVDLA编译器前端对接ncnn模型的方案,以ncnn框架作为中

间层,使得NVDLA能够对接PyTorch和TensorFlow2等更加现代的深度学习

框架。

第二部分是针对NVDLA支持算子有限以及ncnn框架只支持CPU等通用

处理器后端的问题,实现了NVDLA与ncnn框架协同推理的方案。使得ncnn

框架能够使用NVDLA作为后端加速硬件进行推理加速,在推理时遇到

NVDLA硬件不支持的算子,也可以让推理计算回滚到CPU上,复用ncnn框

架极致优化的CPU后端。在这一方案中还实现了ARM64指令集架构

(InstructionSetArchitecture,ISA)下的快速反量化算法,该算法在ARM主流

微架构Cortex-A76上的峰值性能可以达到原生算法的2倍。

最后,基于Xilinx官方评估板ZCU104,完成了NVDLA的FPGA映射以

及对应的Linux内核驱动等软件的移植,最终实现了该推理系统。在该推理系

统上推理ResNet18-CIFAR10网络,其吞吐量相比于NVDLA原生的模型部署

工具链提升了153%,相比于主流端侧推理框架MNN则提升了69%。除了性

能提升以外,该推理系统还提供了更强的模型兼容性,能以可观的速度推理原

生工具链不支持的目标检测网络。

关键词:推理框架,FPGA加速器,NVDLA

ABSTRACT

Withtherapidadvancementofdeeplearning,theapplicationofAIattheedge

hasevolvedfrombasicimageclassificationtomorecomplexdownstreamtaskssuch

asimagedenoising,leadingtoacontinuousincreaseinthecomputationaldemands

ofneuralnetworks.TheinferenceframeworksbasedonCPUbackendsstruggleto

copewiththeexpandingscaleofneuralnetworks.Comparedtocloudcomputing,

edgedevicesoftenhavemorespecificneedsandtasks,allowingfortheuseof

DomainSpecificAccelerators(DSAs)insteadofCPUbackendstoaddressthe

challengesposedbythescalingofneuralnetworkmodels.However,existingDSAs

for

文档评论(0)

1亿VIP精品文档

相关文档