深度强化学习.ppt

DQN简述

BackgroundQ-learning学习过程可写成下面公式:

Background 上面的公式是,将旧的Q-learning函数Qold(st,at)向着学习目标(当前获得的Reward加上下一步可获得的最大期望价值)按一个较小的学习速率α学习,得到新的Q-learning函数Qnew(st,at)。 其中学习速率决定了我们使用新获取的样本信息覆盖之前掌握的信息的比率,通常设为一个较小的值,可以保证学习过程的稳定,同时确保最后的收敛性。

BackgroundLoremipsumdolorsitamet,consecteturadipisicingelit,seddoeiusmodtemporincididuntutlaboreetdoloremagnaaliqua.

从RL看结合DeepLearning的困难之处深度学习的成功依赖于大量的有标签的样本,从而进行有监督学习。而增强学习只有一个reward返回值,并且这个值还常常带有噪声,延迟,并且是稀少的。特别是延迟,常常是几千毫秒之后再返回。深度学习的样本都是独立的,而RL中的state状态却是相关的,前后的状态是有影响的,这显而易见。深度学习的目标分布是固定的。但增强学习,分布却是一直变化的。

增强学习要结合深度学习存在的三个问题:没有标签怎么办?样本相关性太高怎么办?目标分布

文档评论(0)

1亿VIP精品文档

相关文档