常见深度学习模型集成方法.docxVIP

下载本文档

3
0
约2.41千字
约 9页
2025-05-07 发布于湖南
举报
版权申诉

常见深度学习模型集成方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

01数据层面

（1）数据扩充法

数据扩充法在训练和测试阶段均适用，可以增强模型的鲁棒性。

常见的数据扩充方法有：

图像多尺度(multi-scale)：将图像resize到不同尺寸，分别输入网络，对结果进行平均或者加权。

随机扣取(randomcrop)：对测试图片随机扣取n张图像，在测试阶段用训练好的深度网络模型对n张扣取出来的图分别做预测，之后将预测的各类置信度平均作为测试图像最终的测试结果。

（2）简单集成法

“简单集成法”是Liu等人提出针对不平衡样本问题的一种简单集成学习解决方案，好处在于模型集成的同时还能缓解数据不平衡带来的问题。

简单集成法，简单说三点：

1.对于样本较多的类采取降采样(undersampling)，每次采样数依据样本数量最少的类别而定，这样每类取到的样本数可保持均等；

2.采样结束后，针对每次采样得到的子数据集训练模型，如此采样、训练重复进行多次。

3.最后依据训练得到若干个模型的结果取平均/投票。

02模型层面

2.1单模型集成

（1）同一模型不同初始化

同一模型不同初始化方法，非常适用于小样本学习场景，会大幅度缓解模型的随机性，提升最终任务的预测结果。

对于同一个模型来说，不同的参数初始化方式通过随机梯度下降方法得到的训练结果也会不同。具体的做法如下：

初始：首先对同一模型进行不同初始化；

集成：将得到的网络模型结果进行集成；

（2）同一模型不同训练轮数

同一模型不同训练轮数方法，可以有效降低训练轮数过多带来的过拟合风险。

若网络超参数设置得当，深度模型随着网络训练的进行会逐步趋于收敛，但不同训练轮数的结果仍有不同。无法确定到底哪一轮得到的模型最适用于测试数据，我们将最后几轮训练结果做集成。

（3）不同损失函数

损失函数是整个网络训练的“指挥棒”，选择不同目标函数势必让网络学到不同的特征表示。

具体的做法如下，以分类任务为例：可将包括交叉熵损失、合页损失、大间隔交叉熵损失、中心损失等作为损失函数分别训练模型。而在测试阶段，有两种做法：

置信度融合：直接对不同模型预测结果做平均/投票；

特征融合：将不同网络得到的深度特征抽出后级联(concatenate)作为最终特征，然后训练浅层分类器（如支持向量机）完成预测工作。

（4）多层特征融合法

由于深度卷积神经网络特征具有层次性的特点，不同层特征富含的语义信息可以相互补充，因而在目标检测、图像语义分割、细粒度图像检索这些领域常见多层特征融合策略的使用。

一般地，多层特征融合操作可直接将不同层的网络特征进行级联（concatenate），而对于特征融合应该选取哪些网络层，选取的经验是：最好使用靠近目标函数的几层卷积特征，因为愈深层特征包含的高层语义愈强，分辨能力也愈强。相反，网络较浅层的特征更为普适，用于特征融合反而起不到作用。

（5）网络快照法

我们知道深度神经网络模型复杂的解空间中存在非常多的局部最优解，而传统的Min-batchSGD往往只能收敛到其中一个局部最优解，如下所示：

图1SGD：传统SGD方法只能收敛到一个局部最优解

相反的，网络快照法通过循环调整学习率，使得网络依次收敛到不同的局部最优解，利用这些最优解对模型进行集成，示意图如下所示：

图2快照法：通过循环调整学习率，使得网络依次收敛到不同的局部最优解

具体的做法如下，将网络学习率设置为随模型迭代轮数t改变的函数：

其中：

为初始学习率，一般设置为0.1或0.2；

t为模型迭代轮数；

T为模型总的批处理训练次数；

M为“循环退火”次数，对应于模型将收敛到的局部最优解的个数。

注：退火原先是材料加工的一个特有名词，指将金属加热到某个再结晶温度并维持一段时间，再将其缓慢冷却的过程。这里退火指网络模型学习率从初始学习率逐渐减缓到0的过程。

学习率从0.1*1随着t增长逐渐减缓到0，之后将学习率重新放大，从而跳出该局部最优解，如此往复，分别得到不同权重参数的同一模型。测试阶段，一般我们挑选最后个模型“快照”用于集成，这些模型“快照”可以采用“直接平均法”。

2.2多模型集成

我们可以使用不同架构的网络训练模型，根据这些模型结果做集成。假设共有N个模型待集成，对于某测试样本x，其预测结果为N个维向量：S1,S2,...,Sn（C为数据的标记空间大小）。我们介绍常见的四种方法：

（1）直接平均法

直接平均不同模型产生的类别置信度得到最终预测结果。

公式：

（2）加权平均法

在直接平均法的基础上加入权重来调节不同模型输出间的重要程度。

公式：

其中，Wi对应第i个模型的权重，且必须满足：

实际使用中，权重w_i的取值可以根据不同模型在验证集上各自单独的准确率而定。简单说：准确率高点的权重高点，准确率低点权重就小点。

（3）投票法

投票法，少数服从多数，投票数最多的

您可能关注的文档

文档评论（0）

外卖人-小何 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

常见深度学习模型集成方法.docxVIP