高教社智能投资方法与策略教学课件第十六章 DRL组合投资模型.pptxVIP

高教社智能投资方法与策略教学课件第十六章 DRL组合投资模型.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《智能投资:方法与策略》 第十六章 DRL组合投资模型 ;一、 DRL的基本概念 二、DRL的基本方法 三、 DRL组合投资模型的策略思想;深度强化学习(deep reinforcement learning,DRL)是以一种较为通用的形式将深度学习的感知能力与强化学习的决策能力结合在一起的一类机器学习算法。 深度强化学习使用强化学习来定义问题和优化目标,使用深度学习来解决策略和值函数的复杂建模问题,然后使用误差反向传播算法等方法来优化目标函数。 深度强化学习可以通过端对端(end_to_end)的学习方式实现从原始输入到输出的直接控制,在一定程度上具备解决复杂问题的通用智能,并在许多任务上都取得了很大的成功。 主要内容 (一)深度学习 (二)强化学习 (三)深度强化学习;概念 深度学习(deep learning,DL)是利用深度神经网络进行机器学习的一种方法。 深度学习的概念最早由多伦多大学的G. E.Hinton等于2006年提出,基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习方法。 深度学习与传统神经网络的比较 网络层次 深度学习中的“深度”,是相对于传统机器学习的“浅层学习”方法而言的。 浅层学习依靠人工经验抽取样本特征,网络模型学习后获得的是没有层次结构的单层特征; 深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示,从而更有利于处理许多非线性的复杂问题。 优化算法 传统的神经网络随机初始化网络中的权值,导致网络很容易收敛到局部最小值,当网络层数较多时,残差向前传播会丢失严重,导致梯度扩散。 为解决这一问题,Hinton提出使用无监督预训练方法优化网络权值的初值,再利用有监督学习对权值进行微调的方法,拉开了深度学习的序幕。 ;概念 强化学习(reinforcement learning,RL)是指智能体在与环境交互中不断学习的问题以及解决这类问题的方法。 强化学习问题可以描述为一个智能体(intelligent agent)从与环境(Environment)的交互中不断学习以完成特定目标(比如取得最大奖励值)。 发展 RL自1950年代问世以来并未被世界显著地关注,2016年3月Deep mind公司的阿尔法狗战胜了世界围棋冠军李世石,使强化学习等机器学习方法受到世界的广泛关注。 强化学习与监督学习的比较 强化学习是机器学习中的一个重要分支。强化学习和监督学习的主要不同之处在于,强化学习问题不需要给出“正确”策略作为监督信息,只需要给出策略的(延迟)收益,并通过调整策略来取得最大化的期望收益。;强化学习的主要特征:智能体和环境 环境是智能体生活和互动的世界。 在互动的每一步,智能体都会看到观察世界的部分状态,然后决定采取行动。 当智能体对其采取行动时,环境会发生变化,但也可能自行改变。 智能体还感知来自环境的奖励信号,这个数字会告诉它当前世界状态的好坏。 智能体的目标是最大限度地提高其获得的累积奖励,称为收益(return)。 强化学习方法是智能体学习行为以实现其目标的方法。;?;?;策略??期望收益 智能体的策略(Policy)就是智能体如何根据环境状态s来决定下一步的动作a。 给定策略π(a|s),智能体与环境的一次交互过程所得到的累计奖励为总收益(return)。 因为策略和状态转移具有一定的随机性,每次实验得到的收益轨迹是一个随机序列。 强化学习的目标就是学习到一个能够最大化期望收益的策略: 其中 θ为策略函数的参数; τ为智能体和环境一次交互过程的轨迹; p为τ的概率; γ为贴现率; r为即时奖励。 ;策略??期望收益的评估 为了评估策略?? 的期望收益,定义两个价值函数:状态价值函数和状态-动作价值函数。 状态价值函数 策略?? 的期望收益可以分解为: 其中,????(??) 称为状态价值函数(State Value Function),表示从状态?? 开始,执行策略?? 得到的期望总收益。 根据马尔可夫性质,????(??) 可展开得到: 如果给定策略??(??|??),状态转移概率??(??′|??, ??) 和奖励??(??, ??, ??′),我们就可以通过迭代的方式来计算????(??).由于存在折扣率,迭代一定步数后,每个状态的价值函数就会固定不变。 ;状态-动作价值函数 公式(16.7) 中的第二个期望是指初始状态为?? 并进行动作??,然后执行

您可能关注的文档

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档