网站大量收购独家精品文档,联系QQ:2885784924

机器学习全流程重构细节对比与测试分析报告.pdf

机器学习全流程重构细节对比与测试分析报告.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

模型训练的若干细节测试

机器学习模型通过其复杂的非线性方式往往能得到较好的截面选股能力,但由于其“黑箱”的特性使投资者在进行模

型训练的过程中对于很多细节问题没有明确的定论。本篇报告尝试探索了以下几个细节问题:包括特征和标签的数据

预处理方式,使用全A股票训练还是成分股训练,使用一次性训练、滚动或是扩展训练的效果区别,分类模型和回归

模型的差异,损失函数改为IC后是否有进一步提升,不同的树集成方法优劣对比共六个方面。

发现对于截面模型和时序模型而言,其最优数据预处理的方式有所不同。截面模型更适合使用整个训练集进行ZScore

标准化,从而保留数据不同日期间的相对大小关系,而时序模型则应对特征和标签分别使用不同的方式处理。在训练

方式上,我们也针对一次性、滚动或扩展训练进行对比,发现选取合适的样本区间能使模型更能适应不同的市场环境。

在训练所用样本上,我们发现使用全A训练还是成分股训练既与所使用基准有关,同时也与模型本身特性相关,需要

分情况使用最合适的样本。而在分类和回归模型的选择上,我们经过对比发现,回归模型所得因子在各指标上都能超

过分类模型的效果,保留更有颗粒度的标签数据有助于提升模型的学习效果。而对于损失函数是否有必要直接修改为

IC指标,我们经过多种测试,发现并没有带来显著的改善效果,使用MSE作为损失函数较为合适。最终,对于不同的

决策树集成算法,我们经过对比发现引入了Dropout思想的DART模型超过了GBDT算法,能有效缓解模型可能存在

的过拟合问题。

改进后因子与策略效果

最终,我们保持与原框架一致,使用GBDT和NN两大类模型分别在不同成分股上训练,得到了在样本外效果突出的因

子。在沪深300上,因子IC均值10.98%,多头年化超额收益19.66%,多头超额最大回撤6.40%。在中证500上,因

子IC均值与沪深300近似,为10.87%,多头年化超额收益率为12.93%。而在中证1000成分股上,因子表现尤其突

出,IC均值15.14%,多头年化超额收益率23.48%,多头超额最大回撤3.12%。最终,我们结合交易实际,构建了基

于各宽基指数的指数增强策略。其中,沪深300指数增强策略年化超额收益达到15.43%,超额最大回撤为2.87%。中

证500指增策略年化超额收益20.50%,超额最大回撤8.39%。中证1000指增策略年化超额收益32.25%,超额最大回

撤4.33%。

风险提示

1、以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。

2、策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出

现亏损。

1

扫码获取更多服务

金融工程专题报告

内容目录

一、不同数据预处理方式的对比4

1.1数据准备与预处理的方式4

1.2不同数据预处理方式对比4

二、全A训练还是成分股训练?

、一次性、滚动还是扩展训练?9

四、分类还是回归?11

五、损失函数是否有必要修改为IC?12

六、GBDT,DARTorRF?13

七、改进后因子与策略效果14

7.1因子测试结果14

7.2基于GBDT+NN的指数增强策略16

总结21

风险提示21

图表目录

图表1:各类不同数据预处理方式的IC均值对比(LightGBM)5

图表2:各类不同数据预处理方式的多头年化超额收益率对比(LightGBM)5

图表3:各类不同数据预处理方式的多头超额最大回撤对比(LightGBM)6

图表4:各类不同数据预处理方式的IC均值对比(GRU)6

图表5:各类不同数据预处理方式的多头年化超额收益率对比(GRU)7

图表6:各类不同数据预处理方式的多头超额最大回撤对比(GRU)7

图表7:成分股或全A训练因子值各项指标对比8

图表8:成分股或全A训练模型多空净值(沪深300)8

图表9:成分

文档评论(0)

anhuixingxing + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档