2018年量化投资与机器学习.ppt

下载文档

62
0
约2.48千字
约 22页
2018-10-18 发布于湖北
举报
版权申诉
保障服务

2018年量化投资与机器学习.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2018年量化投资与机器学习.ppt

传统量化投资技术 * 汇添富基金历史行情数据历史财务数据历史研究、舆情、公告…… …… 历史数据将数据结构化，提取特征按照特定逻辑，通过统计方法对特征建立模型：因子选股：要统计因子IC等指标，传统因子模型也是基于对收益率的线性回归；择时策略：要统计信号的胜率、赔率、频率，并在样本内样本外做比对；交易策略：类似于择时；风险控制：绩效分析是基于线性模型的，其他风险控制手段也基于一些风险特征在历史上的表现。经典统计学方法论将基于历史数据的统计模型应用于当时的投资问题为什么模型失效？历史不重演了？历史不会完全重演；模型是历史的不完全表述；我们认为，除非市场出现重大变故（类似熔断，股指期货限仓），历史规律不会断然变化，而连续变化的历史规律是可以捕捉的。虽然历史不会完全重演，但量化投资仅需要把握部分重演的历史。让模型更好表述历史、预测未来，是量化投资研究的努力方向。量化投资量化投资需要什么技术？ * 汇添富基金数据处理建模大数据 = 新世界异构数据的流水线特征工程 ? 结构工程大数据时代来临，量化投资可以使用的基础数据充满可能性，大数据有望提升模型表述能力。利用工程学方法构造数据分析的流水线，不断提高数据的时效性。统计模型基于人类对于数据的观测，依赖于经营性的特征提取，深度学习可以通过定义结构进一步挖掘信息。 1. 我们感兴趣的机器学习技术机器学习技术发展日新月异，但在狭义的量化投资领域的应用才刚刚开始。数据获取与数据处理 * 汇添富基金 Source: Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan 从海外经验来看，投资领域对于另类数据的使用已经起步，数据使用范围可谓相当多样。从数据获取来看，主要来源如下：舆情文本、卫星图像、交通信息、物流信息、网络搜索、电商信息等。对应于这些数据来源，所需要的数据处理技术包括：自然语言处理、计算机视觉等。自然语言处理技术 * 汇添富基金从数据处理和特征提取角度来看，目前自然语言处理技术已经较为成熟，可以对诸如新闻、公告等文本信息进行大规模处理。中文分词技术是处理中文文本数据的基础；词向量技术是将高维且正交的one-hot向量，转变为低维且具有几何意义的向量的技术。自然语言处理技术 * 汇添富基金海外某公司现在已经开始提供实时的Twitter舆情数据，直观来看，Tweet Volume和Sentiment都没有很强的领先性，但也不排除精细化处理后对投资能够起到作用。 Source: /charts/#charts-10 计算机视觉技术 * 汇添富基金卷积神经网络（CNN）为处理具有空间结构的数据提供了极大可能。 GPU硬件技术的突飞猛进大大提升了CNN的数据处理能力，使得工业界目前已经可以处理大规模的图像和视频数据。计算机视觉技术 * 汇添富基金海外某公司通过计算机视觉技术，识别卫星图像等原始图像当中的停车场停车数量信息，进而构建零售、餐饮、酒店等场景的高频经营数据。通过这些高频经营数据可以构建相应的交易信号。该公司提供了一种交易方法：计算每月的停车量同比增速，季度计算累计同比增速，计算过去6个月同比增速的布林带，当季度累计同比增速穿越布林带上下轨时，触发买入卖出交易。 Source: Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan 机器学习模型 * 汇添富基金通过对大量非结构化的数据进行处理，成为数字化、向量化的数据集，进而通过机器学习算法进行建模和训练，是目前机器学习领域的主要方法论。工业界的机器学习模型主要解决以下问题：分类（classification）回归/预测（regression）其他，如生成模型，强化学习模型等机器学习模型的表述能力 * 汇添富基金以深度神经网络模型为例，早在1993年，就有学术研究从数学上证明：多层神经网络+非线性激励函数可以近似任何函数。近期实证研究表明，随着神经网络层数的增加，测试集的准确度逐渐提升；此外，在不增加神经网络层数，仅仅增加参数个数的情况下，模型的效果提升不明显；而在不改变参数个数的情况下，将层数从3层增加至11层，则可以显著提升模型效果。 Source: Goodfellow, I. J., Bengio, Y., Courville, A. (2017). Deep Learning 2. 量化投资与机器学习我们的实践以及思考 1 1 1