机器学习系列（1）：使用深度强化学习模型探索因子构建范式.docxVIP

下载本文档

24
0
约4.3万字
约 60页
2024-04-15 发布于北京
举报
版权申诉

机器学习系列（1）：使用深度强化学习模型探索因子构建范式.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

证券研究报告

证券研究报告2024.04.07

量化策略

机器学习系列（1）：使用深度强化学习模型探索因子构建范式

周萧潇分析员

SAC执证编号：S0080521010006

SFCCERef：BRA090

xiaoxiao.zhou@

郑文才分析员

SAC执证编号：S0080523110003

SFCCERef：BTF578

wencai3.zheng@

陈宜筠联系人

SAC执证编号：S0080122080368

SFCCERef：BTZ190

yiyun.chen@

强化学习模型作为机器学习模型的重要分支在各领域应用广泛，从AlphaGo到ChatGPT均不乏其身影。在金融领域强化学习同样具备无需独立同分布假设等优势。本文结合强化学习和特征提取的结构生成的选股因子在多个股票池中均取得良好选股表现，且模型表现对参数敏感性较低，样本外稳定性高。

为什么在量化中尝试强化学习模型

作为机器学习重要的发展分支之一，不论是在近几年讨论度较高的LLM大语言模型还是在围棋领域战胜世界冠军的AlphaGo中都不乏强化学习的身影。强化学习已被证实在不同应用场景下对多种任务都有较好表现。我们认为强化学习在金融领域特别是量化策略中可能将具有良好效果，主要出于强化学习模型以下四个特点：1.适合处理序列决策任

务；

务；2.输入数据无需遵从独立同分布的假设；3.通过与环境交互探索来不断优化当前策略；4.数据无需具备标签。

因子构建的本质：数据与操作符的有机结合

数据+操作符：因子挖掘的过程本质上属于寻找数据与操作符的结合方式，挖掘方式可以被分为人工挖掘或模型挖掘两种。我们在之前的一系列因子手册中展示的因子均为通过一定逻辑采用人工构建的方式得到。而通过人工构建的方式在确定性上虽然比机器更高，但效率理论上来说远不及机器学习模型。

特征提取模块+强化学习模型：为寻求机器挖掘因子的高确定性，我们通过结合强化学习模型和特征提取模块，构建了包含6个常见日度价量特征的数据集，并定义了22个操作符算子和19个常数算子的数据集合。特征提取模块将主要通过对因子表达式进行线性或非线性方法提取特征，强化学习模型则主要负责学习如何将数据特征和操作符以及常数算子有机结合起来，高效寻找合理因子范式。

TRPO样本外稳定性较高

在我们的测试框架下，强化学习模型在样本外的表现均明显优于作为比较基准的遗传算法和传统机器学习方法。其中TRPO_LSTM和A2C_Linear两种组合方案在中证1000范围回测结果表现突出：ICIR约为0.90，样本外超额夏普均超过1.1，并且在今年年初市场快速回撤环境下表现仍然平稳。相比之下，两组对照方法的收益净值曲线在今年年初出现了明显的回撤，超额收益不足2%。

机器学习模型的稳定性也一直是投资者关注的重点之一。我们分别固定强化学习模型和特征提取模块，统计合成因子在样本外回测的ICIR及超额收益的平均表现。实验结果表明，TRPO、A2C和PPO模型参与因子范式挖掘得到的合成因子具有较为稳定的ICIR表现，均超过0.80。特征提取模块中，Transformer参与组合的模型输出的因子具有相对最好的ICIR表现，达到0.79。

TRPO相对稳定的模型结构解释：1）相较于其他强化学习模型，TRPO使用了信任域优化的方法，通过限制策略更新的步幅，确保策略改进过程的平滑和稳定。2）TRPO在每次更新时会自适应地调整学习率来保持策略更新在信任域内，因此其对学习率参数不是特别敏感。3）TRPO优化的目标函数使用了广义优势估计（GAE）来估计策略梯度，

并且结合了值函数的估计来减小方差，该设计使其对于奖励函数中的噪声和估计误差敏感性降低。

风险提示：模型基于历史数据构建，未来可能存在失效风险。

更多作者及其他信息请见文末披露页

请仔细阅读在本报告尾部的重要法律声明

本中金公司研报由115820044@qq.com下载

量化领域下的强化学习 4

为什么选择强化学习 4

强化学习在金融领域中的应用 5

如何寻找因子的构建范式 7

因子构建本质：数据与操作符的有机结合 7

测试框架：特征提取+强化学习 11

TRPO+LSTM：兼顾收益与稳定 14

回测结果：TRPO+LSTM样本外表现更优稳定性高 14

算法对比：强化学习性能与透明度更优 20

模型的参数敏感度分析 21

附录 24

因子合成模块的损失函数及其推导 24

特征提取模块和强化学习模型 25

图表

图表1：强化学习模型示意图 5

图表2：强化学习发展历史

机器学习系列（1）：使用深度强化学习模型探索因子构建范式.docx 原文免费试下载

您可能关注的文档

文档评论（0）

分享使人快乐 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习系列（1）：使用深度强化学习模型探索因子构建范式.docxVIP