基于Zynq的FPGA加速器在推理框架上集成的实现.pdfVIP

下载本文档

6
0
约10.62万字
约 84页
2025-10-13 发布于江西
举报

基于Zynq的FPGA加速器在推理框架上集成的实现.pdf

摘要

随着深度学习的迅速发展，AI在端侧的应用从基础的图像分类延伸到现

在诸如图像降噪等复杂的下游任务，神经网络的计算量也在持续上升，基于

CPU后端的推理框架难以应对神经网络规模的膨胀。端侧设备相比于云端，其

需求及任务较为单一，因此可以使用领域专用加速器（DomainSpecific

Accelerator,DSA）代替CPU后端以应对神经网络规模膨胀的问题。但是现有

的端侧DSA对于神经网络的部署不友好，远不如基于CPU后端的推理框架快

速便捷。

本文主要是针对深度神经网络在端侧部署存在的上述问题，以FPGA加速

器NVDLA和端侧推理框架ncnn为基础，研究并设计实现了NVDLA作为

DSA后端集成到ncnn框架的方案，主要的研究内容与成果如下：

第一部分是针对NVDLA模型部署工具链仅支持部署Caffe模型的问题，

通过设计实现NVDLA编译器前端对接ncnn模型的方案，以ncnn框架作为中

间层，使得NVDLA能够对接PyTorch和TensorFlow2等更加现代的深度学习

框架。

第二部分是针对NVDLA支持算子有限以及ncnn框架只支持CPU等通用

处理器后端的问题，实现了NVDLA与ncnn框架协同推理的方案。使得ncnn

框架能够使用NVDLA作为后端加速硬件进行推理加速，在推理时遇到

NVDLA硬件不支持的算子，也可以让推理计算回滚到CPU上，复用ncnn框

架极致优化的CPU后端。在这一方案中还实现了ARM64指令集架构

（InstructionSetArchitecture,ISA）下的快速反量化算法，该算法在ARM主流

微架构Cortex-A76上的峰值性能可以达到原生算法的2倍。

最后，基于Xilinx官方评估板ZCU104，完成了NVDLA的FPGA映射以

及对应的Linux内核驱动等软件的移植，最终实现了该推理系统。在该推理系

统上推理ResNet18-CIFAR10网络，其吞吐量相比于NVDLA原生的模型部署

工具链提升了153%，相比于主流端侧推理框架MNN则提升了69%。除了性

能提升以外，该推理系统还提供了更强的模型兼容性，能以可观的速度推理原

生工具链不支持的目标检测网络。

关键词：推理框架，FPGA加速器，NVDLA

ABSTRACT

Withtherapidadvancementofdeeplearning,theapplicationofAIattheedge

hasevolvedfrombasicimageclassificationtomorecomplexdownstreamtaskssuch

asimagedenoising,leadingtoacontinuousincreaseinthecomputationaldemands

ofneuralnetworks.TheinferenceframeworksbasedonCPUbackendsstruggleto

copewiththeexpandingscaleofneuralnetworks.Comparedtocloudcomputing,

edgedevicesoftenhavemorespecificneedsandtasks,allowingfortheuseof

DomainSpecificAccelerators(DSAs)insteadofCPUbackendstoaddressthe

challengesposedbythescalingofneuralnetworkmodels.However,existingDSAs

for

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于Zynq的FPGA加速器在推理框架上集成的实现.pdfVIP