- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
;Regularization 正则化 VS 规则化
规则化:顾名思义,给你的模型加入某些规则,来达到某些目的(在机器学习或者深度学习中是为了防止过拟合)
正则化:标准术语,有点给外行人学术门槛的味道;这个翻译用得最普遍,所以我们接下来继续用正则化作为它的“官方”翻译。;;;为了让W多几个为0,对于我们的正则化项
,定义如下3种范数:
L0范数: ,指向量中非0的元素的个数,越小说明0元素越多
L1范数: ,指向量中各个元素绝对值之和
L2范数: ,即各元素的平方和再开方
;第6页/共26页;第7页/共26页;线性回归+L1正则项:Lasso 回归
线性回归+L2正则项:Ridge 回归(岭回归);如果我们用L0范数来正则化一个参数矩阵W的话,就是希望W的大部分元素都是0,让参数W是稀疏的,“压缩感知”、“稀疏编码”就是通过L0来实现的
那为什么用L1去稀疏,而不用L0呢???因为L0范数很难优化求解(NP难问题)(?)
L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解
;特征选择: xi的大部分元素(也就是特征)都是和最终的输出yi没有关系或者不提供任何信息的;但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。
可解释性: 患病回归模型y=w1*x1+w2*x2+…+w1000*x1000+b,通过学习,如果最后学习到的w*就只有很少的非零元素,例如只有5个非零的wi。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。;那么L2范数与L1范数有什么区别呢?;假设我们有个方程组AX=b,我们需要求解X。如果A或者b稍微的改变,会使得X的解发生很大的改变,那么这个方程组系统就是ill-condition的。;;;;从另外一个角度可以将范数约束看成带有参数的约束优化问题。带有参数惩罚的优化目标为:
带约束的最优问题,可以表示为:
通过KKT条件进行求解时,对应的拉格朗日函数为:
;如果 是L2范数,那么权重就是被约束在一个L2球中;如果 是L1范数,那么权重就是约束在L1范数限制的区域中;另外也可以得出L1得到的解比L2稀疏;常用数据增强的方法:
1、旋转 | 反射变换(Rotation/reflection)
2、翻转变换(flip)
3、缩放变换(zoom):
4、平移变换(shift):
5、尺度变换(scale)
6、对比度变换?contrast
7、噪声扰动?noise?
;;将噪声作用与输入,作为数据增强的策略。对于某些模型而言,向输入添加方差极小的噪声等价于对权重施加范数惩罚。
另一种正则化模型的噪声使用方式是将其加到权重,这项技术主要用于循环神经网络(RNN)。
向输出目标注入噪声。;多任务学习是通过合并几个任务中的样例来提高泛化的一种方式。正如额外的训练样本能够将模型参数推向更好的泛化能力值一样,当模型的一部分被多个额外的任务共享时,这部分被约束为良好的值,通常会带来更好的泛化能力。
目前多任务学习方法大致可以总结为两类,一是不同任务之间共享相同的参数(common parameter),二是挖掘不同任务之间隐藏的共有数据特征(latent feature);;深度关系网络(Deep Relationship Networks):在用于机器视觉的多任务场景中,已有的这些方法通常共享卷积层,将全链接层视为任务相关的。[1]
完全自适应特征共享(Fully-Adaptive Feature Sharing):从瘦网络(thin network)开始,使用对相似任务自动分组的指标,贪心的动态加宽网络。[2 ];十字绣网络(Cross-Stitch Networks):文献[3]将两个独立的网络用参数的软共享方式连接起来。
联合多任务模型(A Joint Many-Task Model)[4]
[3] Misra, I. et. al. Cross-Stitch Networks for Multi-Task Learning, CVPR2016.
[4] Hashimoto , K. 2016. A Joint Multi-Task Model: Growing A Neural Network for Multiple NLP Tasks.;;谢谢您的观看!
您可能关注的文档
- 2021-2022学年山东省青岛市四区市高一(上)期中数学试卷【答案版】.pdf
- 2021-2022学年四川省成都市龙泉驿区实验小学北师大版四年级下册期末模拟考试数学试卷.docx
- 2022-2023学年广东省广州市九年级(上)期末物理试卷及答案解析.doc
- 2023年4月自考《00107现代管理学》试题和答案.pdf
- 2023年高中物理学史汇总(2023版).doc
- 2023双减背景下小学数学作业设计实施方案(创新分层设计方案)4篇.doc
- 部编版道德与法制四年级下册《我们当地的风俗》学历案设计.doc
- 部编六年级数学《比的意义》江丽丹PPT课件-一等奖新名师优质课获奖比赛公开北京.pptx
- 初二期末压轴专题——对等模型.教师版.pdf
- 初中地理学习技巧.完美版PPT.ppt
文档评论(0)