周频量价指增模型.docxVIP

下载本文档

35
0
约2.71万字
约 14页
2022-04-10 发布于北京
举报
版权申诉

周频量价指增模型.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一、关于量价模型研究背景与目的近年来量价选股因子的发展呈现很有意思的现象，一方面以反转、波动、换手、特异度等为代表传统量价因子多头表现接连失效，公募量化机构选股模型中直接放弃量价的不在少数，另一方面以神经网络、决策树为代表的机器学习模型在高频日间量价选股模型中大放异彩，不少专注于该类模型的量化私募规模快速扩张。由于交易成本、合规风控等原因，每日单边换手 30%以上的高频量价策略直接应用在公募很难有竞争力，但是，我们完全可以借鉴高频量价中的一些方法应用在相对低频的领域（周频调仓或者日度单边换手低于 10%的策略）。本文主要目标是从股票过去一段时间的量价特征中提取一个综合的打分评价，用于相对低频的横截面选股，该打分可以直接用来做指数增强组合，也可以和现有的低频 alpha因子结合使用。模型结构概述传统的 alpha 模型一般分为 alpha 因子构建和因子加权两个步骤，机器学习方法在量化选股中的应用也很容易围绕这两个步骤展开，前者如遗传算法挖因子和我们在前期报告《神经网络日频 alpha 模型初步实践》中采用的神经网络因子单元，后者常见于采用各种非线性机器学习方法做因子加权。近年来比较流行端对端的神经网络，如果把因子生成和因子加权集成一个网络中，alpha 因子只是作为隐层，那么也就实现了所谓的“end to end”，但是本文并没有采用端对端的设计，主要原因有如下 3 点：可扩张性更强，当有新的数据源或新的因子构建想法时可以设计新的因子单元并入原模型，而不改变原模型结构；硬件资源要求更低，各因子单元和因子加权模型单独训练，每一个模型块都不会过大，对显存等硬件资源要求不高；可以在某些模型块采用决策树等不便直接并入神经网络的模型算法，灵活性也更高。本文采用如图 1 所示的alpha 模型结构，包括作为因子单元输入的量价序列数据、从序列数据提取选股因子的因子单元以及合成 alpha 因子的加权模型。简单介绍如下：输入数据：股票的量价是典型的序列数据，除了使用原始的日度K 线、分钟K线作为因子单元的输入数据，还可以基于每天的分钟数据或者 L2 数据生成每天的特征序列（比如每天的日内波动率序列或者大单买入占比序列）作为输入；因子单元：本文采用《神经网络日频alpha 模型初步实践》中提出的“循环神经网络多元因子单元”作为提取序列输入数据的因子单元，该因子单元以传统的循环神经网络为基础，通过设计特殊的损失和惩罚使得因子单元能够高效的生成多个有效但是相关性低的 alpha 因子；因子加权：由于量价因子持续处于失效的过程中，早期有选股效果的量价因子可能因为市场结构的变化、因子的拥挤等原因走向失效，因此我们采用动态加权的方法整合量价因子，给予近期表现好的因子更高的重要性，在第四章我们对比了最大化 IC（线性加权）和 gbdt（非线性加权）两种常见的动态加权方法。需要提醒的是，我们在《神经网络日频alpha 模型初步实践》中提出的正交转换方法存在逻辑漏洞，算法会通过引入白噪音实现各个输出因子的正交从而起不到提取独立有效选股成分的效果，因此我们放弃了先正交转换后多头加权的方法。图 1：量价 alpha 模型结构数据来源：数据说明本文涉及的因子检验和组合测试起止于和样本空间为中证全指同期成分股，模型训练涉及的日线和分钟数据最早开始于 L2 特征最早开始于本文默认采用T+1 收盘至T+11 收盘的涨跌幅作为label，关于label 的详细讨论参考第四章，另外由于神经网络训练有一定的随机性，本文模型得分是 5 次独立训练的平均结果。本文的因子 RankIC 考察了 5 日收益率（5 日无间隔，T+0 收盘至T+5 收盘）、10 日收益率（10 日无间隔，T+0 收盘至 T+10 收盘）、20 日收益率（20 日无间隔，T+0 收盘至 T+20 收盘）三个时间尺度，考虑到可交易性，我们也测算了三个时间尺度下间隔一个交易日的 RankIC，即 5 日间隔 1 日（T+1 收盘至T+6 收盘）、10 日间隔 1 日（T+1 收盘至T+11收盘）、20 日间隔 1 日（T+1 收盘至 T+21 收盘）。因子的分组业绩测算时默认采用次日 vwap 成交，不考虑交易成本，但是汇报了换手率，费后收益可以根据费前收益和换手率近似估算。二、因子单元量价时序数据集因子单元的功能就是从不同数据集中提取出对选股可能有用的一个或多个alpha 因子，巧妇难为无米之炊，信息含量高且便于训练的数据集十分重要。本文采用 3 个日度时序数据集——原始日线行情 rawbar、基于分钟线提取的特征序列 mschars、基于 L2 数据