- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepLearning
深度模型中的优化
颜数仁
导师:
纯优化学习
最小化目标J本身减低代价函数J
如:如:
线性模型的正规方程全连接层的梯度下降
学习和纯优化的不同
学习:关于减低J
使用训练集代替数据本身。批量算法和小批量算法
整个数据带来的期望泛化误差叫风险使用整个数据集叫批量
使用训练集带来的期望泛化误差叫经验风险使用介于单个和整个数据集之间的叫小批量
代理损失函数和提前终止
使用一些函数如RELU替代0-1损失函数
在验证集上拥有低损失时终止,防止过拟合
学习和纯优化的不同
代理损失函数和提前终止
使用一些函数如RELU替代0-1损失函数
在验证集上拥有低损失时终止,防止过拟合
从左图可以看出上面介绍的这些损失函数都可以
看作是0-1损失的单调连续近似函数,而因为这些
损失函数通常是凸的连续函数,因此常用来代替
0-1损失进行优化。它们的相同点是都随
→−∞而加大惩罚;不同点在于,他们的
增长方式不同。
代理损失函数可以进一步拉开不同类别的距离以
改进分类器的鲁棒性,获得一个更强壮的、更值
得信赖的分类器,从而,相对于简单地最小化训
学习和纯优化的不同练集上的平均0−1损失,它能够从训练数据中
抽取更多信息。
批量算法和小批量算法
使用整个数据集叫批量
使用介于单个和整个数据集之间的叫小批量
小批量的大小通常由以下几个因素决定:
•更大的批量会计算更精确的梯度估计,但是回报却是小于线性的。
•极小批量通常难以充分利用多核架构。这促使我们使用一些绝对最小批量,低于这个值的小批量处理不会减
少计算时间。
•如果批量处理中的所有样本可以并行地处理(通常确是如此),那么内存消耗和批量大小会正比。对于很多
硬件设施,这是批量大小的限制因素。
•在某些硬件上使用特定大小的数组时,运行时间会更少。尤其是在使用GPU时,通常使用2的幂数作为批
量大小可以获得更少的运行时间。一般,2的幂数的取值范围是32到256,16有时在尝试大模型时使用。
•可能是由于小批量在学习过程中加入了噪声,它们会有一些正则化效果。泛化误差通常在批量大小为1时
最好。因为梯度估计的高方差,小批量训练需要较小的学习率以保持稳定性。因为降低的学习率和消耗更多
步骤来遍历整个训练集都会产生更多的步骤,所以会导致总的运行时间非常大。
神
您可能关注的文档
最近下载
- 真空炉专用热电偶及其选择.pdf
- NITON XL3t(美国力通-矿石元素分析仪)用户手册-中文.doc
- 时尚艺术明星们的时尚艺术作品展览.pptx
- 兰博基尼-Gallardo 盖拉多 产品用户手册 - 车主手册 -Gallardo Coupe-Gallardo Coupe LP560-4-GallardoCoupèLP560-4用户手册.pdf
- 公共服务领域地方政府与社会组织合作治理研究-政治学理论专业论文.docx
- 2024年生猪屠宰兽医卫生检验人员考试题库.docx
- 2024江西水利职业学院教师招聘考试笔试试题.docx
- 2025国企中层干部竞聘考试题库.docx VIP
- 超声骨刀机啄木鸟.pptx
- 冲床操作说明书.xls VIP
文档评论(0)