端侧AI NPU算子融合与混合精度量化压缩方法.docxVIP

  • 0
  • 0
  • 约5.3千字
  • 约 6页
  • 2026-07-03 发布于浙江
  • 举报

端侧AI NPU算子融合与混合精度量化压缩方法.docx

端侧AINPU算子融合与混合精度量化压缩方法

摘要:端侧AI部署面临算力、内存与功耗三重约束,NPU(神经网络处理单元)的算子融合与混合精度量化是突破瓶颈的关键技术。本文针对端侧NPU的硬件特性,提出了一种“融合感知-量化协同”的压缩框架。在算子融合方面,设计了基于计算图模式匹配的自动融合引擎,支持Conv-BN-ReLU、Conv-Add-Activation等12种融合模式,在MobileNetV3上减少了42%的算子调用次数与31%的内存访问。在混合精度量化方面,提出了基于海森矩阵迹的逐通道敏感度分析方法,自动为每层分配最优位宽(4-8bit),在保持精度损失0.3%的前提下,将模型体积压缩至原来的18.7%(INT4/INT8混合)。在联发科Dimensity9300NPU上进行了实测:融合+量化后的YOLOv8n推理延迟从12.8ms降至4.2ms(加速3.05倍),功耗从2.3W降至0.9W,模型体积从12.5MB降至2.3MB。本工作旨在为端侧AI的高效部署提供系统化的算子融合与量化压缩方法。

关键词:端侧AI;NPU;算子融合;混合精度量化;模型压缩

第一章绪论

端侧AI——即在智能手机、物联网设备、边缘服务器等资源受限的设备上直接运行AI模型——正在成为人工智能的主流部署形态。相比于云端AI,端侧AI具有低延迟(无需网络传输)、高隐私(数据不出设备)与低成

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档