深度学习问答18：模型轻量化是什么？量化、剪枝技术答疑.docxVIP

深度学习问答18：模型轻量化是什么？量化、剪枝技术答疑.docx

深度学习问答18：模型轻量化是什么？量化、剪枝技术答疑

一、核心问答正文

问题1：什么是模型轻量化？为什么必须做轻量化？

现阶段高性能深度学习模型（深层ResNet、超大版YOLO、大型Transformer）普遍存在参数冗余、计算量大、内存占用高的问题。这类模型依托高性能GPU训练，在云端服务器离线运行毫无压力，但无法直接部署至算力贫瘠的终端设备，比如嵌入式开发板、移动端手机、边缘工控设备、无人机等。

模型轻量化，指在可控精度损失（或零精度损失）的前提下，通过一系列算法与工程手段，压缩模型体积、降低参数量、减少浮点计算量、降低显存/内存占用，从而提升模型推理速度，适配低算力、低功耗终端设备的一门综合技术，是CV、NLP模型落地部署的必经步骤。

从面试与项目落地角度，轻量化核心解决三大痛点：硬件门槛过高、推理延迟过高、设备功耗超标；所有轻量化技术的底层核心取舍关系为：精度、速度、体积三者互相制衡。

问题2：模型轻量化整体技术体系分类

行业内完整的轻量化方案分为四大类，覆盖算法层面与工程部署层面，适配不同业务场景与开发人员，难度由低到高排序，新手可按需选型：

结构设计（算法层面）：设计原生轻量化网络，从源头减少冗余参数；代表模型：MobileNet、ShuffleNet、GhostNet，适合从零开始训练模型；

参数剪枝（算法层面）：剔除已训练模型中冗余、无效的神经元与卷积通道，删

更多 >