基于样本加权与风格约束：对端到端模型泛化性的思考与改进.docx

下载文档

0
0
约1.35万字
约 20页
2024-12-20 发布于境外
举报
版权申诉
保障服务

基于样本加权与风格约束：对端到端模型泛化性的思考与改进.docx

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一、动机 5

二、模型泛化性 6

（一）泛化评估 6

（二）风格局限 8

三、方法 11

（一）GroupDRO 11

（二）风格惩罚项 11

四、实验 13

（一）模型说明 13

（二）测试结果 14

1、风格测试 14

2、IC测试 14

3、分组测试 15

4、指增测试结果 17

5、小结 19

五、总结 20

六、风险提示 21

七、参考文献 21

图表目录

图表1 GRU基线模型 6

图表2 模型表征训练-测试偏移 7

图表3 2021年-基线模型因子多空 8

图表4 2024年-基线模型因子多空 8

图表5 2021年基线模型1000指增表现 8

图表6 2024年基线模型1000指增表现 8

图表7 环境对图像模型的影响 9

图表8 因子风格偏好 9

图表9 不同域间因子10日IC对比 10

图表10 不同域间因子多空收益累加对比 10

图表11 模型流程 13

图表12 模型超参数汇总 13

图表13 不同模型的风格相关性 14

图表14 IC测试结果汇总 14

图表15 TOP组超额净值走势对比（全区间） 15

图表16 TOP组超额净值走势对比（2024年） 15

图表17 TOP组逐年收益 15

图表18 20分组年化收益对比 15

图表19 模型TOP组对比 16

图表20 GRUDRO流动性分域测试 16

图表21 指数组合绩效对比 17

图表22 指增组合逐年对比 17

图表23 GRU基线指增组合超额 18

图表24 GRUCONST(0.1)指增组合超额 18

图表25 GRUCONST(0.01)指增组合超额 18

图表26 GRUDRO指增组合超额 18

一、动机

深度学习技术在量化领域已有较多运用，然而数据驱动类模型通常建立在独立同分布假设上，当样本外存在数据分布偏移时，模型预测偏差可能导致高昂损失。2024年复杂多变的市场环境对已有模型与因子的稳健性提出了挑战，《AI+HI系列》系列过去的数篇研究中，我们主要聚焦于优化模型架构，提升模型在收益层面的表现，在本篇报告中，我们以模型的泛化能力为出发点，尝试找到模型的盲区并进行改进。

我们首先以一个简洁的GRU（门控循环单元）作为基线模型，观察样本外偏移对模型表征空间的影响。我们观察异常状态下模型应用端的表现，为模型泛化性评估提供一个新的可观测指标；

在改进模型泛化能力的方法上，我们认为考虑更多样的特征/模型是一个简单的解决策略，但对输入端相对固定的端到端模型，我们进一步讨论了在数据输入的多样性受限的情况下，如何提高模型稳健性。针对GRU基线，我们以风格因子为抓手，分析了导致泛化风险的潜在因素，这些因素可能是模型在训练过程中基于平均损失最小化目标带来的。基于此，我们对模型训练目标进行改进，在因子与指增测试中，改进后的模型相较于基线、取得了更好的表现。我们的改进方法与模型设计无关，可以灵活适用于已有模型。

本报告后续章节安排如下：

第二章：介绍一种基于奇异值分解的指标SVE，从模型表征的角度监测和识别模型的“异常”。基于SVE指标，我们发现GRU基线模型在“没见过”的数据上的不佳表现。

第三章：我们分析了导致端到端模型表现不佳的2个潜在原因，它们可能与模型的平均风险最小化训练方式相关；针对模型的“盲区”，我们提出2种具体的改进方法

——基于样本加权的GRUDRO与风格约束GRUCONST并进行测试。

二、模型泛化性

本章我们以一个GRU基线模型为例，我们首先介绍模型及训练方法：模型：

模型由GRU+MLP模块构成，每个batch模型输入为截面n只股票的过去t天的量价时

序，取GRU最后一个时间步的输出作为个股表征，将其输入MLP层得到预测值；GRU嵌入维度d为64、MLP层数为2；

图表1 GRU基线模型

资料来源：

数据集：

过去T日的日频的高、开、低、收、均价、成交量6个变量；在本章我们取T=30构建

30D数据集；

采样方法：

以每个交易日t为一个采样截面；模型预测标签：

预测标签为未来10日的市值行业中性化后收益（t+1日~t+11日，以收盘价计算；进行

rank标准化）；模型损失函数为IC。测试方法：

样本空间为中证全指；分组测试调仓频率为周度，取每周最后一日因子值进行20分组，

以次周第一个交易日收盘价再平衡，不考虑交易成本；

其余标准化、训练流程与系列先前报告方法相同不再赘述。

（一）泛化评估

以上模型训练完成后，我们构建

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

基于样本加权与风格约束：对端到端模型泛化性的思考与改进.docx