2022年遗传规划专题研究报告.docxVIP

  • 3
  • 0
  • 约6.65千字
  • 约 14页
  • 2022-08-02 发布于重庆
  • 举报
2022年遗传规划专题研究报告 1.遗传规划研究回顾 遗传规划是一种启发式的公式演化技术,通过模拟自然界中遗传进化的过程来逐渐生成契 合特定目标的公式群体,适合进行因子挖掘。在华泰金工人工智能系列前期报告中,有三 篇遗传规划因子挖掘相关的报告,涉及量价因子挖掘、适应度改进、交叉验证等内容。本 文中,我们将把遗传规划运用于分析师一致预期因子的挖掘。 遗传规划从随机生成的公式群体开始,通过模拟自然界 中遗传进化的过程来逐渐生成契合特定目标的公式群体。我们对遗传规划程序包 gplearn 进行深度改进,实现了遗传规划在因子挖掘上的应用。关于遗传规划的详细原理,可参见 报告《人工智能 23:基于遗传规划选股因子挖掘》(2019.6.10)。 2.分析师一致预期数据的特点和处理方法 一致预期数据的特点和形式 分析师一致预期数据归纳总结了市场上卖方分析师报告对个股的财务指标预测、评级以及 关注情况,是除公司财报数据、交易数据以外重要的第三方数据,蕴含丰富的信息。且分 析师一致预期数据可达到日频更新的水平,一定程度上能反映基本面的高频变化,具有深 度挖掘的价值。 每日每只股票的一致预期数据个数可能是不同的,一般包含 2-3 个未来年份(通常有卖方持 续覆盖的情况下,不论是否披露财报,均有 3 年预测期数据,财报更新后没有卖方持续跟 踪的,有 2 年预测期数据)。当某年的财务报表披露后,该年的一致预期数据就不再出现, 所以一致预期数据的预测年份是在变化的。如下图,在 2021 年 2 月 2 日,股票 000002 有 三年的一致预期数据,而股票 000001 则只有两年的一致预期数据,这是由于股票 000001 的 2020 年财报已披露,最小预测年份就会变成 2021 年,而股票 000002 的 2020 年财报 尚未披露,故最小预测年份是 2020 年。 针对遗传规划需求的一致预期数据处理方法 在使用遗传规划进行量价因子挖掘时,因子计算过程是在二维(第一维是股票,第二维是交 易日)的量价数据上进行矩阵预算。而在进行一致预期因子挖掘时,情况变得更加复杂了一 些,每日每只股票通常包括未来 2-3 个年份的预期数据,此时需要一个三维数据结构来存 储数据,第一维是股票,第二维是交易日,第三维是预测年份,我们把原 始一致预期个股数据表中的数据依次填入到三维数组中。 此外针对每只股票,每个交易日都使用最小预测年份的一致预期数据,因此还需要构建一 个二维数组存储股票在各个交易日的最小预测年份。 在构造好以上数据结构后,我们将通过一个简单的案例展示因子的计算方式。如图表 6 所 示,以因子表达式 ts_mean(CON_EPS,5)为例,计算过程为: 1. 首先对交易日进行遍历,在存储最小预测年份的二维数组中找到每只股票当日的最小预 测的年份。如 2021 年 2 月 2 日,股票 000001 和股票 000002 的最小预测年份分别为 2021 年和 2020 年。 2. 针对每只股票在三维数组中查找过去 5 个交易日相同预测年份的数据,如股票 000001 需要找到(000001,2021/1/27-2021/2/2,2021)的数据,而股票 000002 则需要找到 (000002,2021/1/27-2021/2/2,2020)的数据。 3. 基于每只股票的窗口数据,即可以计算 ts_mean(CON_EPS,5)的运算值,该日运算完 成后,再进行 2021 年 2 月 3 日的计算,最后将所有交易日的运算值合并则可以得到最 终的运算结果。 4. 一致预期数据中,可能会出现 ENTRYDATE(入库日期)晚于 TDATE(预测日期)的情形, 我们针对此也进行了处理,避免使用未来信息。 3.遗传规划一致预期因子挖掘的测试流程 测试流程包含下列步骤: 1. 数据获取和特征提取: 1) 股票池:全 A 股中具有分析师一致预期数据的股票,剔除 ST、PT 股票,剔除每个截 面期下一交易日涨停和停牌的股票。 2) 回测区间:2012/4/27~2022/3/31。时间排前 80%的截面为训练集,后 20%的截面为 验证集。 3) 原始因子。 4) 预测目标:个股 20 个交易日后的收益率。 2. 使用图表 7 中的因子和图表 8 中的函数集,生成大量公式,按照遗传规划的流程进行公 式的进化和筛选。公式适应度的计算:假设有公式 F,得出该公式在截面 t 上对所有个股的 因子向量??后,进行行业市值中性化,并计算因子的 IC 均值为适应度。 3. 对遗传规划挖掘出的因子进行 IC 测试、分层测试和相关性分析。 4.遗传规划所得一致预期因子的单因子测试 单因子测试方法简介 IC 值分析法 因子的 IC 值是指因子在第 T 期的暴露度向量与 T+1 期的股票

文档评论(0)

1亿VIP精品文档

相关文档