【神经网络压缩与加速研究的国内外文献综述3400字】.docxVIP

下载本文档

1
0
约7.22千字
约 5页
2024-12-19 发布于湖北
举报
版权申诉

【神经网络压缩与加速研究的国内外文献综述3400字】.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

神经网络压缩与加速研究的国内外文献综述

当前，针对深度神经网络的压缩与加速，其主要方法有网络剪枝、网络量化、低秩分解、紧凑卷积核和知识蒸馏。以下分别对这五种方法研究现状进行介绍。

（1）网络剪枝

网络剪枝可以去除深度网络模型中冗余的、不重要的参数来减少模型参数量。前期的剪枝方法，如基于非结构化的，精度理论上较高但需下层的硬件和计算库对其有比较好的支持。而结构化剪枝方法可以很好地解决上述问题，因此近年来的研究很多是集中在结构化上。

对于非结构化剪枝，早在20世纪九十年代LeCun等人[8]提出了最优化脑损失策略，该方法基于二阶导数来判定参数是否裁剪，可以达到更高的准确度同时又降低网络复杂度，确保精度损失最小化。Sriniva等人[9]提出通过建立参数的显著性矩阵来删除不显著的参数，该方法无需使用训练数据和反向传播，运行速度较快。非结构化剪枝的代表性工作为Han等人[10]的工作，由权重的大小判断权值所含有的信息量进行修剪，剪去数值小于给定阈值的不重要连接及对应参数，大大减少网络参数量，该方法在AlexNet模型上实现了9倍的压缩，在VGG－16模型实现了3倍压缩。

为解决非结构化修剪方法迭代收敛慢，运算效率不足的问题，众多研究开始转向结构化剪枝方法。这类方法通过度量滤波的显著性，将显性滤波移除进而实现网络预测加速。Li等人[11]使用滤波器参数的L1范数来判断滤波器权重的显著性，删除不显著的滤波器，从而达到模型压缩的目的。Molchanov等人[12]基于一阶泰勒展开寻找使损失函数变化最小的滤波器，并将其设定为显著性滤波器。Luo等人[13]提出了ThiNet网络结构，开始研究下一层滤波器输入通道的重要性，滤波器是否被剪去取决于下一层而不是直接只考虑当前层。此方法在ImageNet分类任务上，在ResNet-50模型中加速了2.26倍，模型大小压缩了2.06倍，仅增加了0.84%的分类误差。

（2）网络量化

网络模型量化目前包含两个研究方向：其一为权值共享，基本思想就是多个网络连接的权重共用一个权值，如聚类方式共享和哈希方式共享；其二为权值精简，即权值的低比特表示，主要是定点量化。

在聚类方式共享方面，Gong等人[14]提出了一个加速和压缩CNN的方法（Q-CNN），主要思想是基于k-means聚类算法对模型的卷积层和全连接层中的权重进行量化，且最小化每层的输出响应误差。在哈希方式共享方面，Chen等人[15]提出了将网络权重随机分组到多个哈希桶中的方法，同个哈希桶内的所有连接共享相同的权重参数，从而实现参数共享。该法类似特征哈希，即将高维数据降到低维空间，以达到减小模型体积，减小精度损失的目的。?

在定点量化中，使用定点数运算来代替浮点数运算，处理相对简单，执行效率也更高。Vanhoucke等人[16]将网络参数由32比特定点量化为8比特进行存储，内存占用降低的同时准确率基本不受影响。Gupta等人[17]则使用了16比特的定点数表达方法，并加入了随机约束的方法，使性能损失较小的同时又降低了模型资源消耗。Courbariaux等人[18]提出了BinaryConnect网络，权值如果大于0为+1，小于0为-1，该二值量化方法可以实现网络的32倍压缩。2016年，Li等人[19]提出了三值权值网络（TernaryWeightNetwork，TWN），当权值高于某个阈值为+1，高于正阈值却小于负阈值时为0，其余为-1。

（3）低秩分解

低秩分解的核心思想是将原来大的权重矩阵分解成多个小的矩阵。由于权值向量多分布于低秩子空间,因此可用少数的基向量来重构卷积核矩阵,达到减少模型内部冗余性的目的。Deni等人[20]最早使用低秩分解的思想来对神经网络模型进行压缩与加速，即利用低秩分解技术分析模型的大量冗余信息。在2015年，Kim等人[21]提出基于Tucker分解的方法，通过变分贝叶斯矩阵进行Tucker分解，将一个张量表示成一个核心张量和若干个小张量的乘积，大大减少了计算量。之后，Lieven等人[22]采用张量分解的方法用五层复杂度更低的网络层重构原始网络，实现4.5倍的加速。

（4）紧凑卷积核

对深度网络模型的卷积核使用特殊的结构化卷积核或紧性的卷积核能有效地压缩深度网络。2016年，Iandola等人[23]提出SqueezeNet，其核心Fire模块，主要包含Squeeze层和Expand层。在Squeeze层使用1*1的卷积核减少输入通道的数量，在Expand层中把1*1和3*3卷积核得到的特征映射进行压缩，得到不同尺寸的卷积特征。该SqueezeNet在达到AlexNet识别精度的同时模型参数降低了50倍，大大压缩了深度网络模型。2017年，Howard等人[24]提出了MobileNet，