- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
online learning algorithm-taoshuai - 副本
A Survey onAlgorithms of the Regularized Convex Optimization Problem
Shuai Tao
2014.6.20
Outline
传统方法
Truncated Gradient and FOBOS
RDA (Regularized Dual Averaging)
FTRL (Follow-the-regularized-Leader)
问题描述
最小化的目标函数(无约束优化),soft regularization formulation:
另一种等价约束优化描述,convex constraint formulation:
无约束优化表示
全局梯度下降:
牛顿法、LBFGS等方法
不等式约束凸优化问题
投影梯度下降(约束优化表示下),gt是subgradient
批量(Batch)算法
批量算法
传统不等式约束的凸优化方法:内点法(转化为规则化的无约束优化)等
批量算法的优缺点
优点
精度高
局限性
受限于被训练数据的规模
无法有效处理数据流,做在线训练
在线算法
在线梯度下降(OGD)
随机梯度下降(SGD),在凸集上做投影
混合正则化项:
在线算法
梯度下降方法
精度比较好
局限性
很难产生真正稀疏的解,即便加入L1正则化项
对于不可微点的迭代会存在一些问题(the iterates of the subgradient method are very rarely at the points of non-differentiability)
Outline
传统方法
Truncated Gradient and FOBOS
RDA (Regularized Dual Averaging)
FTRL (Follow-the-regularized-Leader)
稀疏性的考量
简单加入L1范数
a+b两个float数很难绝对等于零,无法产生真正稀疏的特征权重
2. 那就设定一个阈值,做截断来保证稀疏,可以结合L1范数
简单截断方法,每online训练K个数据截断一次
稀疏性的考量
Truncated gradient (09年的工作)
Black-box wrapper approaches:
黑盒的方法去除一些特征,然后重新训练的看被消去的特征是否有效。
需要在数据集上对算法跑多次,不太实用
FOBOS
Forward-Backward Splitting method (google和伯克利09年的工作)
可以看作truncated gradient的一种特殊形式
基本思想:跟projected subgradient方法类似,不过将每一个数据的迭代过程,分解成一个经验损失梯度下降迭代和一个优化问题
Outline
传统方法
Truncated Gradient and FOBOS
RDA (Regularized Dual Averaging)
FTRL (Follow-the-regularized-Leader)
RDA
Regularized dual averaging(微软10年的工作)
非梯度下降的范畴,属于更加通用的一个primal-dual algorithmic schema的一个应用
克服了SGD类方法所欠缺的exploiting problem structure,especially for problems with explicit regularization。
能够更好地在精度和稀疏性之间做trade-off
Outline
传统方法
Truncated Gradient and FOBOS
RDA (Regularized Dual Averaging)
FTRL (Follow-the-regularized-Leader)
FTRL (Follow-the-regularized-Leader)
FTRL (改进与实际应用H. Brendan McMahan, google)
10年理论性paper,但未显式地支持正则化项迭代;11年证明regret bound以及引入通用的正则化项;11年另一篇的paper揭示OGD、FOBOS、RDA等算法与FTRL关系;13年的paper给出了工程性实现的paper,并且附带了详细的伪代码,开始被大规模应用。
可以看作RDA和FOBOS的混合,但在L1范数或者其他非光滑的正则项下,FTRL比前两者更加有效
FTRL (Follow-the-regularized-Leader)
基本思想
OGD不够稀疏
FOBOS能产生更加好的稀疏特征
梯度下降类方法,精度比较好
RDA
可以在精度与稀疏性之间做更好的平衡
稀疏性更加出色
FTRL
综合OGD的精度和RDA的稀疏性
最关
文档评论(0)