机器学习算法下的行业轮动.docxVIP

下载本文档

23
0
约1.08万字
约 13页
2022-07-06 发布于四川
举报
版权申诉

机器学习算法下的行业轮动.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一、机器学习算法与行业轮动（-）经典机器学习的三大方向机器学习算法是由普通算法演化而的来。通过自动地从提供的数据中学习，它会让我们的程序变得更“聪明工机器学习利用统计技术提供了向计算机“学习”数据的能力，而不需要复杂的编程。经典的机器学习主要有为三大方向：回归、分类和聚类。其中，回归和分类般属于有监督学习，聚类属于无监1 类。其中，回归和分类般属于有监督学习，聚类属于无监1 学习。对于三大方向，可以简要概括的介绍为: 回归算法：回归是一种对数值型连续随机变量进行预测和建模的监督学习算法。使用案例如股票走势、资产价格预测等连续变化的案例。回归任务的特点是标注的数据集具有数值型的目标变量，回归方程的两端一般都是数值型变量，或能够转换为数值型变量的变量，如true/falsex行业变量等。回归算法每一个观察样本都有一个数值型的标注真值以监督算法。常见的回归算法如线性回归（正那么化）、回归树（集成）以及最近邻算法等；分类算法：分类方法是一种对离散型随机变量建模或预测的监督学习算法。使用案例和场景包括邮件过滤、金融欺诈和预测雇员异动等输出为类别的任务。值得注意的是，许多回归算法都有与其相对应的分类算法，分类算法通常适用于预测一个类别（或类别的概率）而不是连续的数值。常见的分类算法包括Logistic回归（正那么化）、分类树（集成方法）、深度学习、支持向量机和朴素贝叶斯等；聚类算法：和回归算法与分类算法不同，聚类是一种无监1学习任务该导法基于数据的内部结构寻找观察样本的自然族群（即集群）。典型的使用案例包括细分客户、新闻聚类、文章推荐等。因为聚类是一种无监督学习（即数据没有标注），并且通常使用数据可视化评价结果。如果存在“正确的回答”（即在训练集中存在预标注的集群），那么分类算法可能更加合适。常见的聚类算法包括K均值聚类、Affinity Propagation （AP）聚类、层次聚类（Hierarchical / Agglomerative）、DBSCAN 聚类算法：和回归算法与分类算法不同，聚类是一种无监1 学习任务该导（-）行业轮动中的机器学习算法引入机器学习算法有其不同的适配和应用场景。机器学习能够进一步挖掘传统线性模型以外的非线性信息，可以作为经典线性回归的补充。在本文的行业配置研究中，回归算法适配性最高，这是由于本文中截面模型对行业收益率的预测是一个具体数值, 且是有监督学习（过去的行业收益率是的），符合回归算法中“标注的数据集具有数值型的目标变量”的特点。分类算法对行业配置也具有一定程度的适配性。许多相似研究的做法是将行业粗（-）策略风险提示虽然组合策略回测期内表现优异，但在实际使用中，仍有一些风险点需要特别注意。这些风险点主要来自于以下层面：数据时间长度比拟短：受限于指数数量以及数据长度，本文虽选择了尽量长的回测期，但时间区间依然是人为选取的，与国外成熟的研究相比回测时间仍然较短，仅8年左右（2014年1月至今，约1900个交易日）。因此，策略表现较好也可能时受到时间区间影响的结果，在更长的时间段内能否仍然表现较好需审慎评估线性模型过拟合比拟严重：由于指数数量本身较少（开始阶段大约只有20 个指数），模型前期过拟合现象比拟严重，策略在标的较少时超额收益不明显，叠加牛市行情甚至没有超额收益；后期随着指数数量的上升以及单边市场的改善，策略超额收益逐渐增加。此外，过拟合导致线性模型的残差局部占比拟少，机器学习算法能发挥的空间不大，可能无法非常客观的反响机器学习算法的能力没有考虑交易本钱：本文使用指数进行回测，其对应的场内ETF通常交易成本较低，加上本文中的策略是一个日频策略，非日内高频，因此本文在回测时没有考虑任何交易费用和冲击本钱。考虑交易本钱后，实际情况下策略净值会略低于本文中的业绩表现。另外，自2021年7月19日起，沪深交易所同步降低基金（包括封闭式基金、ETF、LOF）竞价交易经手费，场内ETF交易本钱有较大降低算法对可能对参数较为敏感：由于机器学习算法参数较多，本文只测试了默认或常见参数；对于非默认或常见情况，可能带来策略的波动和冲击（三）后续改进方案为解决以上缺乏，有以下方案可以作为后续改进的参考：考虑将相似的方法应用于个股层面，而不是行业层面：与行业/主题指数相比，个股的数量较多，产生过拟合的几率低，可以留下充分的空间给机器学习算法发挥，或能更好的评估策略的实战能力考虑对算法进行调参和进行策略的多参数组合：最优模型对应的参数在样本外的泛化能力或有限，通过对策略进行多参数组合，可以提高模型外推的能力，在实证下也被证明可以降低策略的波动率，通常也伴随更优夏普比考虑在回测时加入交易本钱和冲击本钱附录：局部指数