- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
外文译文使用机器学习算法进行股市预测摘要股市预测是一个吸引来自不同领域的研究人员的长期话题。特别是,许多研究已进行了预测,如支持向量机(SVM)和利用机器学习算法强化学习股市的行动。在这个项目中,我们提出了一个新的预测算法,在SVM的帮助下利用全球股市和各种金融产品的时间相关性来预测第二天的股票走势。计算预测的准确度可以达到在纳斯达克指数下的74.4%,和在SP500指数下的76%与在道琼斯工业平均指数下的77.6%。同样的算法也被施加在不同的回归算法中来跟踪在市场上的实际增量。最后,我们建立了一个简单的交易模式来研究与其他标准所提出的预测算法的性能。一引言股票走势预测一直是一个有趣的话题,被来自不同领域的研究人员所广泛研究。机器学习作为一个在宽范围应用的完善算法,已被在金融市场广泛地研究其预测潜能。一些流行的算法,包括支持向量机(SVM)和强化学习,有报道是在跟踪股市和帮助股票期权转让利润最大化方面是相当有效的,同时保持低风险。然而,在许多这些文献中,被选择用于输入到机器学习的算法大多来源于关注同一市场内的功能数据。这种隔离漏掉了由其他对象携带的重要信息,使预测结果更容易受到局部扰动。我们已经做了很多努力来通过最新的财经新闻或个人社交网络(如Twitter)来整合外部信息,打破界限。这些方法,在一般投资者的心中回答在市场中的几个关键人物或成功分析师的态度,被称为情感分析。尽管在某些情况下是成功的,但是当一些人存在偏见时,或积极的意见只是遵循以往出色的表现,而不能预测有前途的未来市场时,情感分析可能会失败。在这个项目中,我们提出将全球股市数据的使用与其他金融产品的数据联系起来作为机器学习算法例如SVM的输入特征。特别是,我们感兴趣的是市场的收盘价格之间的相关性,从而在美国市场开始之前或刚开始的时候停止买卖。随着全球化发展,世界经济之间的联系变得更加紧密,金融市场的外部扰动不再是国内的。我们相信海外股市和其他金融市场,特别是与即将到来的美国交易日的相关性强的数据,应该是对机器学习基础预测有用的,而我们的猜测是通过数值结果验证的。该报告的其余部分安排如下。第二部分介绍了详细的算法,包括我们的算法,数据的收集和特征选择的基本原则。数值结果示于第三节随后的分析和讨论。在第四节中,我们建立了一个简单的交易模式来演示在纳斯达克增加利润的算法的能力。第五节总结了整个报告。二算法2.1基本原则全球化加深世界各地的金融市场之间的相互作用。美国金融危机的冲击波几乎袭击了每一个国家的经济,起源于希腊的债务危机打倒了所有主要的股票指数。如今,没有金融市场是独立的。经济数据,政治扰动和其他海外事务,都可能在国内市场引起剧烈的波动。因此,在这个项目中,我们建议使用全球主要的股票指数作为我们基于机器学习预测的输入特征。特别的,在美国市场交易之前或刚开始时关闭的海外市场应提供有关美国未来交易日走势的有价值的信息,因为他们的动作在最新的经济新闻上已经引起了市场情绪,或是反应了世界主要事务的进展。图2-1世界金融市场除了股市,大宗商品价格和外汇数据也被列为潜在的特征,因为不同的金融市场相互连接。例如,放缓的美国经济必然会导致美国股市下跌。但在同一时间,随着人们寻求资产避风港,美元和日元将相对于同行上涨。这种相互作用意味着这些金融产品之间存在潜在的关系,并且使用其中一个或几个就可以预测的其他产品的变化。2.2 数据采集在这个项目中所使用的数据集包含了如表一所列的16个源,涵盖从2000年01月04日到2012年10月25日的每日价格:由于市场封闭上的假期因国家而异,我们用纳斯达克指数作为数据对齐的依据,在其它数据源丢失的数据被替换为线性内插值。表2-1数据源股票NASDAQ,DJIA,SP 500,Nikkei 225,Hang Seng index,FTSE100,DAX,ASX货币欧元,澳元,日元,美元商品银,铂,石油,GoldC:\Dropbox\CS229 Project2.3特征选择在这个项目中,我们着眼于股市(增加或减少)趋势预测。因此,特征随时间的变化比各要素的绝对值更重要。我们定义xi(t),其中i∈{1,2,...,16},特征i随时间t变化。特征矩阵由下式给出:式(2-1)当:式(2-2)两日价格之间的差异计算为新的特征量:式(2-3)式(2-4)式(2-5)由于在市场价值和各市场的基础的差异,上述的计算出的差值可以在很宽的范围内变化。为了让他们可比较,将该特征值归一化如下:?式(2-6)式(2-7)式(2-8)归一化公式为:式(2-9)如以上所讨论的,一个股票市场预测的性能在很大程度上取决于用于训练和当前输入预测数据之间的相关性。直观地说,如果股票价格的走势始终是昨日的延伸,预测的准确度应该是相当高的。为了选择具有高的时间相关性的输入特征,
文档评论(0)