端侧AI NPU算子融合与混合精度量化压缩方法.docxVIP

下载本文档

0
0
约5.3千字
约 6页
2026-07-03 发布于浙江
举报

端侧AI NPU算子融合与混合精度量化压缩方法.docx

端侧AINPU算子融合与混合精度量化压缩方法

摘要：端侧AI部署面临算力、内存与功耗三重约束，NPU（神经网络处理单元）的算子融合与混合精度量化是突破瓶颈的关键技术。本文针对端侧NPU的硬件特性，提出了一种“融合感知-量化协同”的压缩框架。在算子融合方面，设计了基于计算图模式匹配的自动融合引擎，支持Conv-BN-ReLU、Conv-Add-Activation等12种融合模式，在MobileNetV3上减少了42%的算子调用次数与31%的内存访问。在混合精度量化方面，提出了基于海森矩阵迹的逐通道敏感度分析方法，自动为每层分配最优位宽（4-8bit），在保持精度损失0.3%的前提下，将模型体积压缩至原来的18.7%（INT4/INT8混合）。在联发科Dimensity9300NPU上进行了实测：融合+量化后的YOLOv8n推理延迟从12.8ms降至4.2ms（加速3.05倍），功耗从2.3W降至0.9W，模型体积从12.5MB降至2.3MB。本工作旨在为端侧AI的高效部署提供系统化的算子融合与量化压缩方法。

关键词：端侧AI；NPU；算子融合；混合精度量化；模型压缩

第一章绪论

端侧AI——即在智能手机、物联网设备、边缘服务器等资源受限的设备上直接运行AI模型——正在成为人工智能的主流部署形态。相比于云端AI，端侧AI具有低延迟（无需网络传输）、高隐私（数据不出设备）与低成

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

端侧AI NPU算子融合与混合精度量化压缩方法.docxVIP