金融与财务机器学习 第10章 神经网络模型.ppt

金融与财务机器学习 第10章 神经网络模型.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

*第五节神经网络的发展2:生成式对抗网络基本概念与框架*如何衡量人工智能的理解程度?神经网络研究的第三波高潮推动了人们对集人工智能与机器学习于一体的算法的深度研究,生成式对抗网络应运而生生成模型:对联合概率进行建模,从统计的角度表示数据的分布情况,刻画数据是如何生成的模型,例如朴素贝叶斯方法等判别模型:对条件概率P(Y|X)P(Y|X)进行建模,主要是寻找不同类别之间的最优分类面,而不关心数据如何生成的,例如逻辑回归算法等判别模型在深度学习乃至机器学习领域取得了巨大成功;而生成模型由于需要大量的先验知识去对真实世界进行建模,且受先验分布选择的影响大。因此人们更多关注判别模型生成式对抗网络*生成式对抗网络(GenerativeAdversarialNetworks,GAN)是无监督学习方法的一种,近年来广泛应用于人工智能的各个领域一个典型的GAN主要包含两个独立的神经网络:生成器(Generator)和判别器(Discriminator)生成式对抗网络特点在于“对抗”,或可称为“博弈”生成器得到预测数据分布后,判别模块对真实数据和预测数据进行分类并返回判别信息给生成器最终得到的优化结果希望使得生成器生成的预测收益同真实收益无法被判别器识别生成式对抗网络*图10.7生成式对抗网络的计算流程和一般结构在金融中的应用*利用生成式对抗网络可以生成特殊市场状况下的数据来扩充训练集这不仅能建立更多形式的市场模型,也有利于解决“过拟合”问题图10.8使用GAN估计随机贴现因子SDF框架(Chenetal;2019)专栏10-3生成式对抗网络与其他模型在金融时间序列生成上的比较专栏10-4生成式对抗网络在其他场景的应用*第六节神经网络的发展3:深度强化学习强化学习*强化学习(ReinforcementLearning,RL),也叫“增强学习”,是指一类从(与环境)交互中不断学习的问题以及解决这类问题的方法强化学习不需要给出“正确”策略作为标准(或称“监督信息”),只需要给出策略的(延迟)回报,并通过调整策略来取得最大化的期望回报强化学习无需一定数量的带标签的数据,较监督学习有降低获取数据成本、可实践性高的优点强化学习*在强化学习中,通常假设有两个可以进行交互的对象智能体环境环境是指智能体外部的所有事物,其受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励强化学习的基本要素还包括对环境进行描述的状态对智能体行为进行描述的动作智能体根据环境状态来决定下一步动作的过程描述函数策略智能体根据当前状态??做出一个动作之后,环境在下一个时刻转变为新状态的概率智能体根据当前状态做出动作之后,环境反馈给智能体的一个奖励强化学习*图10.11智能体与环境的交互示意图强化学习*在强化学习中,动态交互过程包含三个核心概念马尔可夫决策过程目标函数值函数马尔可夫过程:一组具有马尔可夫性质的随机变量序列马尔可夫决策过程:在马尔可夫过程基础上加入了一个额外的变量动作上式也体现出了“交互”的含义强化学习*图10.12马尔可夫决策过程示意图强化学习*目标函数:给定一个策略,智能体和环境的一次交互过程就会收到一个反馈的奖励,而在全部过程中收到的累积奖励便是总回报(Return)假设环境中有一个或多个特殊的终止状态,当到达终止状态时,智能体和环境的交互过程就结束了这一轮交互的过程称为一个“回合”或“试验”,一般的强化学习任务,比如下棋等都属于这种回合式任务强化学习*如果环境中没有终止状态,则称为持续式任务,其总回报可能是无穷大为了解决这个问题,通常可以引入一个折扣率来降低远期回报的权重这一思想和公司金融中计算现金流的贴现值时的贴现率类似强化学习*值函数:为评估策略函数的期望回报引入的概念,即在状态s下执行动作a获得的期望回报由于值函数可以看作对策略的评估,因此我们可以根据值函数来优化策略深度强化学习*深度强化学习(DeepReinforcementLearning,DRL)将强化学习和深度学习结合在了一起,用强化学习来定义问题和优化目标,用深度学习来解决策略和值函数的建模问题,然后使用误差逆向传播算法来优化目标函数深度强化学习*深度强化学习的常见分类:Model-Free和Model-BasedModel:在一个环境中各个状态之间转换的概率分布描述-Free和-Based:是否要基于具有这种概率分布描述进行建模Model-Based类的算法建模较为很困难,而且学习成本

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档