随机森林在股票趋势预测中应用.docVIP

下载本文档

137
0
约4.57千字
约 10页
2018-09-22 发布于福建
举报
版权申诉

随机森林在股票趋势预测中应用.doc

此“经济”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

随机森林在股票趋势预测中应用

随机森林在股票趋势预测中应用　　[摘要] 对于股票投资过程中的趋势预测问题，采用随机森林算法建立基于历史价量信息的股票模型。文章首先介绍了股票技术指标，然后利用随机森林算法实现了对沪深股票的趋势预测。通过对算法分类精度和股票回测结果进行分析，证实集成学习算法在股票趋势预测中具有一定的作用。　　[关键词] 集成学习算法；随机森林；股票预测　　doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2018. 03. 048 　　[中图分类号] F832.48 [文献标识码] A [文章编号] 1673 - 0194（2018）03- 0120- 04 　　1 引言　　股票市场的快速发展，使得其逐渐成为国民经济的重要支撑。股票市场可以带来高收益率，如何准确预测股票价格走势，如何规避股票投资风险，如何获得最大投资收益是绕不开的问题。股票价格作为非线性时变系统，预测难度较大。本文为了保证稳定的投资收益，降低投资风险，采用股市中常用的技术指标作为分析基础，利用随机森林（RF）作为算法，旨在实现对股票涨跌的预测。　　算法交易降低了投资者情绪的作用，减少了长期经验的积累，被广泛应用于股票市场。例如：张健等[1]研究了人工神经网络在股票分析预测中的应用，并试图设计新的网络；张晨希等[2]使用支持向量机预测上市公司股票走势，并证明优于传统神经网络；邹阿金等[3]构建了新型的Legender神经网络，并证明可以很好地逼近非线性系统；张燕平等[4]改进原有的覆盖算法，给出新的覆盖学习算法SLA，并将其应用于股票预测；何芳等[5]研究了基于扩展Kalman滤波的神经网络学习算法，并证明在股票预测中具有可行性。　　本文基于集成学习算法，旨在帮助初入股市的人判断股票的未来涨跌趋势。具体研究内容如下：第一，本文首先从常用的技术指标出发，阐明了技术指标在股票预测中的作用。第二，介绍RF算法，并与技术指标结合进行建模。第三，在实证中发现RF在预测股票涨跌上还是有一定的帮助的。实验的同时也验证了本文提出的方法对股票交易具有一定意义的预测指导作用。　　2 技术指标　　1896年Charles H.Dow提出股价平均指数，这是第一个股票技术指标。随后技术指标就开始在股票预测中占有一席之地。技术指标具有三个方面的优势：第一，直观性，即使专业知识缺乏，仍可通过技术指标对股票趋势进行判断；第二，多样性，技术指标几乎涵盖了每一种策略；第三，统一性，所有的股票可以放同一框架比较。　　2.1 本文选取的技术指标　　本文的技术指标主要是在分析、归纳、总结大量文献和证券报告后，结合价值成长投资策略（GARP）[6，7]选取的。GARP结合了价值型策略和成长性策略，目的是找到价值可能被低估，实际却在持续增长的股票。　　本文选取的股票技术指标见表1。　　上述16个股票技术指标涵盖了评价上市企业盈利、偿债、成长、运营等能力的技术指标，符合GARP。技术指标不止16种，以上16种是投资者最普遍使用的。虽然只选用16个指标具有后验性、片面性、欺骗性，但集成学习算法较好的弥补了这些缺点和不足。　　3 随机森林算法　　随机森林（Random Forest，RF）[8]，是基于Bagging算法的一种集成学习算法。训练集通过自助重抽样得到，分裂规则为CART算法，特征选择采用随机的方法。RF包含了Bagging、CART、随机特征选择等几个算法，噪声容忍能力强，分类效果突出。　　3.1 Bagging算法　　Bagging算法[9]的原理是：设原始的样本集为S，有放回的抽样得到的训练集为T-set，其中T-set和S的元素个数相同。　　若选用的抽样方法为Bootstrap，则S中没被抽取到的样本概率是（1-）N，其中N为S的样本总数。已知（1-）N≈0.368，所以S中的样本大约有37%不会被抽到。没抽到的数据成为袋外数据；袋外数据一般用来估算模型的性能，即OOB估计[10]。使用OOB能够得到泛化误差的大小和单个特征的重要程度。设T轮训练之后，分类器序列为{f1，f2，…，fT}，该序列构成了多分类器的模型，分类结果的获取对于分类模型来说可以采用简单多数投票法或平均法。　　Bagging处理多分类问题的预测准确率是由元学习算法的稳定性决定的，见图1。　　已知Bagging方法适用于对于不稳定的元学习算法，因为Bagging通过降低方差减小泛化误差，处理不稳定的元学习算法，预测函数的偏差偏小，方差偏大。CART作为元学习算法是不稳定，故RF算法通?^自助重抽样法得到不同训练集的方法，不仅降低了方差，还降低了的泛化误差。　　3.2 随机森林　　RF由{h（x，θk），k=1，…