- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
金融工程专题
金融工程专题
PAGE 4 / 16
PAGE 4 / 16
请务必阅读正文之后的信息披露和法律声明
前言
我们在上一篇报告《利用机器学习捕捉因子的非线性效应》中构造了一个机器学习残差因子,并用该因子在全 A 股市场中进行了分组回测。回测的结果表明, 因子具有较强的选股能力,因子暴露最高的组具有比较稳健的超额收益。在这篇报告中,我们首先对因子的选股能力进行归因,然后对投资组合的容量进行测试, 再测试因子在不同的股票池中的选股能力。最后,我们尝试将机器学习残差因子与风格因子进行结合。
介绍
多元线性回归被广泛应用于多因子选股的研究和实践当中。它关注的是本期因子暴露与下一期股票回报之间的线性关系。
?? ?? = ?????Δ?? ? ???? + ????, (1)
其中,?? ??为下一期的股票回报向量,?????Δ??为股票的因子暴露矩阵,并含有一列常数项以代表国家因子,????为因子的收益率向量,????为残差收益率。等式右边的 第一项?????Δ?? ? ????是股票收益中能够被线性模型解释的部分。我们使用 CNE5 中的十个风格因子作为因子输入,在根据式(1)进行回归时,使用加权线性回归(WLS) 并以股票市值的四分之一次方为权重。
我们认为,线性模型在取得很大成功的同时,存在有以下几个方面的局限: 第一,模型预测的回报关于任意一个有解释力的因子的关系只可能是单调递
增或者单调递减。在实际情况当中,因子的影响可能是非单调的。
第二,模型预测的回报对于因子值的敏感性是常数。在现实中,敏感性可能变化,例如,当某个因子值数值较小时,股票的回报对因子值不敏感,但当这个因子值数值较大时,股票的回报随着因子值的增加而快速变化。
第三,不同的因子之间的作用是完全解耦的,即因子间的交互作用始终等于零。实际上,两个或多个因子其共同作用的结果可能大于各自的作用的总和。除此以外,某个因子对于回报的影响方向可能依赖于其他因子的取值。例如,当因子 A 的值较低时,因子 B 与回报之间呈现正相关;而当因子 A 的值较高时,因子B 与回报之间呈现负相关。
上述局限性或可通过对残差收益率进行建模来进行弥补,因为残差收益率包括所有不能被线性解释的部分。我们可以对残差收益率按以下公式进行拆分。
?????? = ??(?????Δ??) + ??′ , (2)
??
??其中,G(?)是一个非线性函数,它作用在因子暴露矩阵上,而获得该函数的方式是以?????Δ??为自变量,以????为因变量,用机器学习模型进行拟合。??′ 是剥离了
??
?????Δ??的拟合非线性函数后的残差收益率,它可以由因子未能蕴含的信息以及因素 进行解释。为了尽可能消除风格因子的影响,我们将??(?????Δ??)对风格因子做正交
化处理,从而得到机器学习残差因子???(?????Δ??)。
我们通过神经网络、随机森林和提升树三种机器学习模型挖掘因子的非线性解释能力。通常,残差收益率作为拟合信号,具有很低的信噪比,我们通过集成各种类型和复杂度的模型,来尽可能多地拟合残差收益率中的信号,尽可能少地拟合其中的噪音。同时,我们通过交替训练集成模型中各个子模型的方式,来降低突发的高换手率。
本文中使用的数据是全A市场的股票复权价格、风格因子数据以及沪深300、中证 500 的成分股数据。我们用月频选股回测方法,评估机器学习残差因子在不同股票池中的选股能力。
方法
模型训练和选股方法
机器学习集成模型包括 2 个神经网络子模型,3 个随机森林模型和 3 个提升
树模型。这 8 个子模型的训练频率都在两年上下,但各个子模型是交错训练的。
训练子模型时,回顾期为 60 期,而每期的数据为 20 日的因子和股票回报。
在全 A 市场进行选股时,训练数据用全 A 股的数据,然而,在沪深 300 指数或中证 500 指数成分股内选股时,可以采用不同的模型训练方案:1)仍然采用全A 股票数据训练,这样一来,数据量更大,有利于机器学习模型识别可靠的模式, 然而,用于训练的股票和候选股票存在不匹配的问题。2)只采用对应的股票池内的股票数据训练,例如,在沪深 300 指数成分股中选股时,训练数据也只能是沪深 300 指数成分股,这样做的好处是解决了训练数据和候选股票之间不匹配的问题,然而样本数量太少,或不利于机器学习模型参数的收敛。
在全市场进行分组回测时,采用均匀分组的方式。在指数成分股内选股时, 也可以采用两种不同的方案。第一种方案是均匀分组,第二种方案是基于全市场的分组情况,将各组内的指数成分股筛选出来,从而构造新的分组。在本文中,我们将展示不同的训练、分组方式的回测结果。
风格、行业、成分归因方法
在全市场选股的分组回测中,第十组代表的投资组合的表现优异,我们
原创力文档


文档评论(0)