机器学习方法在股指涨跌预测中的应用研究.docx

机器学习方法在股指涨跌预测中的应用研究.docx

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? ? 机器学习方法在股指涨跌预测中的应用研究 ? ? (东华大学旭日工商管理学院 上海 200050) 一、引言 在预测金融时间序列的问题中,关于股票价格指数的预测得到了诸多学者的关注。股票指数不仅反映整个市场的价格趋势和变动情况,还能反映国民经济整体发展形势,同时也对投资者投资决策具有重要的参考价值,是灵敏反映市场社会、政治、经济变化情况的晴雨表。因此,预测股票指数具有重要意义。但由于市场受到诸多因素的影响,股指的不确定性增加,预测股票指数走势成为最具挑战性的金融时间序列预测问题之一。 与传统的统计方法相比,机器学习在分类和预测等问题上的优势日益凸显。将机器学习方法应用在股票价格的预测上逐渐成为国内外学者研究的热点。Yakup Kara(2011)[1]等基于人工神经网络(ANN)和支持向量机(SVM)预测了指数的走势,他们选择多项技术指标作为模型的输入,对模型进行调参后,ANN模型与SVM模型的准确率均超过了70%,且ANN模型的平均预测能力明显优于SVM模型。Jigar Patel等(2015)[2]讨论了预测印度股票市场单个股票和股指的走势问题,他们研究比较了ANN、SVM、随机森林与朴素贝叶斯这4种预测模型,结果发现,当输入指标为连续值时,随机森林在整体性能上优于其他3种预测模型。不仅如此,他们还发现,当输入指标为趋势确定性数据时,所有模型的预测准确率都得到了改善。冉杨帆等(2018)[3]则结合了情感分析与机器学习方法,以股票的舆论新闻数据为基础,运用BP神经网络与支持向量机回归(SVR)两种方法,对20只股票的价格进行了预测,结果表明,SVR模型的预测正确率更高。王芊(2019)[4]基于机器学习预测并分析了股票收益率变化方向,综合考虑了技术指标、基本面指标和舆情指标,研究发现极度梯度提升树XGBoost算法的准确率比随机森林、支持向量机等多种前沿机器学习方法高。 由于研究者选择的输入变量、输出变量及应用的股票市场有所不同,各机器学习方法的预测表现也有所差异。但总体来说,相对于传统的统计方法,越来越多的学者更倾向于选择机器学习方法来预测股市走势问题。本文借鉴国内外学者的研究,以沪深300指数为市场代表,建立10个技术面指标,通过支持向量机、随机森林、XGBoost预测股指的价格变动方向,并对比分析各模型的准确率。 二、研究方法 (一)指标获取 沪深300指数集合了沪深两个市场流动性最强、规模最大的300只股票,是A股最具代表性的核心指数。本文以沪深300指数为代表来预测股市的涨跌。选取2006年1月至2019年8月共计3 323个交易日的开盘价(Ot)、最低价(Lt)、最高价(Ht)、收盘价Ct以及成交量(Volt)指标,以此为基础建立如表1所示的10个技术指标。 表1 技术指标建立 由于每个技术指标具有不同的量纲与数量级,本文将做标准化处理后作为模型的特征输入。输出特征为下一日股指的价格变动方向,将其转化为一个二分类问题,分类结果为“上涨”和“下跌”。 为输出变量,class=1代表上涨,class=0代表下跌或不变。 (二)模型选择 相对于传统的逻辑回归、决策树简单的机器学习方法,支持向量机、随机森林以及新颖的XGBoost等机器学习方法因为分类性能好、准确率高等优势得到学者的广泛应用。本文试图通过建立支持向量机、随机森林和XGBoost模型预测沪深300指数价格变化方向,并对比不同机器学习方法的准确率。本文选取两分类模型中常用评价指标(见表2)以及ROC曲线来度量各模型的分类性能。评价指标计算方式依赖混淆矩阵见表3。而ROC曲线向上离对角线越远,曲线下的面积AUC值就越大,则说明模型的分类性能越好。 表2 模型评价指标 表3 混淆矩阵 三、实证研究 本文研究的样本区间包括2006年1月至2019年8月共计3 323个交易日的数据,该区间包含了股市2007年与2015年两次大起大落时期,这对测试模型的稳健性具有重要意义。为测试模型准确性,本文将样本数据分为训练集和测试集,其中训练集占70%,测试集占30%。对10个技术指标做标准化处理后,分别使用支持向量机、随机森林和XGBoost模型对训练集监督训练,并对测试集的进行预测,以检验模型的准确性。 (一)支持向量机对沪深300指数的预测 SVM是比较常用的分类算法,其核心是采用线性分类器,当数据在当前维度下不可分割时,可以映射至更高的维度上。因此它在识别高维数据时要优于其他机器学习模型。本文经过多次参数调整,当惩罚项C取3时,模型的分类性能较好。利用训练好的SVM模型在测试集上预测,输出的混淆矩阵见表4,ROC曲线见图1。 表4 SVM测试集混淆矩阵 图1 SVM测试集ROC曲线 由表4可知,SVM模型预测下一交易日股指价格上涨且实际也上涨的有344次

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档