“学海拾珠”系列之二百三十：“知识”嵌入型深度强化学习在多元资产配置中的应用.docxVIP

下载本文档

25
0
约1.66万字
约 19页
2025-04-10 发布于北京
举报
版权申诉

“学海拾珠”系列之二百三十：“知识”嵌入型深度强化学习在多元资产配置中的应用.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

证券研究报告

正文目录

引言 4

背景 5

采用基于规则的资产配置模型 5

成熟的强化学习算法 5

SAC算法 6

DPG和DDPG算法 7

方法论 8

问题定义 8

数据采集与预处理 8

模型设计 9

基于规则的模型 9

模仿学习 12

导师-学生模型 12

DDPG-SAC混合模型 13

动作调整模块 13

引导噪声注入网络 13

实证结果 14

5 结论 19

风险提示： 20

证券研究报告图表目录

证券研究报告

图表1文章框架 4

图表2强化学习框架中基于规则模型扩展的选择与训练架构可视化 9

图表3扩展版本1：扩展的BBA再平衡策略 10

图表4扩展版本2：HALLOWEEN策略支持的扩展BBA 11

图表5基于规则的资产配置扩展策略的业绩比较 11

图表6资产池在训练阶段由模型选择 14

图表7模型性能提升结果 15

图表8EXT2型学生模型（深色）与导师模型（红色）的对比 16

图表9EXT2B型学生模型（深色）与导师模型（红色）的对比 17

图表10EXT1型学生模型（深色）与导师模型（红色）的对比 17

图表11EXT1A型学生模型（深色）与导师模型（红色）的对比 18

图表12EXT2型学生模型（左图）与导师模型（右图）资产配置记录对比 19

引言

图表1文章框架

华安证券研究所整理

资料来源：随着机器学习（尤其是深度学习）在解决复杂现实问题（如机器翻译和图像分类）中展现出的卓越性能，各类创新方法正被逐步融入精密投资策略的构建中。这些计算技术已广泛应用于投资的多个维度，涵盖市场信号处理、动态资产配置、价格预测及金融情绪分析等领域。Tsantekidis等人利用长短期记忆网络（LSTM）从高频市场数据中提取买卖信号，实现了前瞻性操作。该研究证实，相较于支持向量机（SVM）和多层感知机（MLP），LSTM模型在信号预测方面具有更优表现。Zhang等人则提出一种基于在线梯度下降法的资产配置权重分配方法，并证明该策略在理论层面可匹配或超越最优静态资产配置策略的表现。

资料来源：

然而，现有投资组合优化研究中，尽管已整合多种机器学习方法，但大量研究仍难以证明策略的持续长期有效性。此类研究的一个共性特征是依赖时间跨度有限的数据集，通常不足五年：例如1年、2年，或3-4年。尽管这些工作有效验证了机器学习模型在投资组合管理中的短期价值，但缺乏证据表明此类策略能在重大金融动荡期（如1997年亚洲金融危机、2008年次贷危机及2021年新冠疫情冲击）中保持性能稳定性。这种时间维度的局限性，可能难以充分建立个人投资者的信心——尤其对于该技术熟悉度较低的群体，从而潜在阻碍由智能投顾推荐的投资管理技术的广泛采纳。

证券研究报告此外，部分研究在构建投资组合选择模型时，仅聚焦于特定资产类别子集（通常限于某类股票），以此定义可选资产池。尽管这些研究在限定资产范围内取得了良好

证券研究报告

投资表现，但此类狭窄的资产选择范围可能难以确保投资组合管理的稳定性——尤其是在市场条件预示或已导致原有利好趋势逆转时。再者，现代智能投顾方法的不透明性，常因其算法缺乏直观可解释性而阻碍个人投资者与机构决策者的信任。

为应对上述挑战，文献提出一种融合改进的透明化研究框架，该框架继承并优化了现有的基于规则（rule-based）的资产配置模型，同时引入深度强化学习（RL）算法进行精细化调优。本研究采用的规则模型包括进攻性资产配置（BoldAssetAllocation,BAA）和防御性资产配置（DefensiveAssetAllocation,DAA）。此类模型以战略性调整著称，即当资产动量（通过比较当前价格与历史移动平均价及短期历史收益率生成信号）显示风险上升时，主动撤离风险市场。通过借鉴现有模型在可信度与可解释性方面的优势，本研究提出的方法进一步利用先进深度强化学习算法，显著提升了所选策略在投资组合中的执行效能。

文献主要贡献如下：

提出高性能的长期动态投资组合选择模型

创新性地构建了现有规则型投资组合选择策略的仿效模型框架，随后通过深度强化学习（RL）混合扩展优化其可信度与可解释性。这是首次实现从成熟规则型投资组合选择模型的知识迁移，并集成深度强化学习先进扩展进行性能增强的研究。

提出SAC-DDPG混合RL模型的新型扩展

本在DDPG框架基础上引入SAC特性（如双评估减少偏差、灵活调整决策-评估模型更新频率），形成混合扩展模型。同时创新性地加入高斯噪声注入器和引导噪声注入网络，显著区别于现有

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

“学海拾珠”系列之二百三十：“知识”嵌入型深度强化学习在多元资产配置中的应用.docxVIP