- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精品文档,助力人生,欢迎关注小编!
结合文本情感、主题、社交特征和深度学习的股价预测方法
陈媛先
[摘 要] 文章旨在提出一种结合文本数据情感值、文本主题、社交数据,并基于深度学习算法LSTM模型(Long-Short Term Memory,长短期记忆网络)的股价预测方法。文章通过将情感测量值丰富到6种,特别是测量了情感分歧值(情感值标准差),为情感参与股价预测提供了新的特征值。同时,将社交数据(文本的阅读数、点赞数)纳入模型中,考虑到了社交影响因素。在此基础上,文章将文本的主题因素纳入股价预测中,最终形成情感、主题、社交相结合的丰富文本特征集。基于OLS回归,首先验证了情感、主题、社交等特征和股价的相关性,然后,使用LSTM算法对特征与预测值进行了模型训练,最后基于训练好的模型对样本进行了回测。从回测结果看,增加了情感和主题后,模型具有良好的预测能力,对下一天收盘价的预测误差控制在0.5元以内。
[关键词] 文本情感;
文本主题;
LSTM;
社交特征;
股价预测
中图分类号:TP391.1 文献标识码:A
使用文本信息进行股票走势预测的研究越来越常见,在使用到的文本信息中,个股新闻和财报(徐伟, 李韵喆. 20XX;
张梦吉, 杜婉钰, 郑楠. 20XX;
杨阳. 20XX)是比较常用到的一种文本信息[1-3]。此外,社交文本也成为重要的分析信息来源,比如,微博文本(朱梦珺, 蒋洪迅, 许伟. 20XX;
张栋凯, 齐佳音. 20XX)[4-5]。
在使用文本信息进行股价预测的时候,主要的分析方向有甄别市场情绪、分析主题、分析文本的传播效果等。大部分的研究通过其中1种或者2种方向来对股市做分析和预测。其中,情感、情绪结合股价分析是最常见的一种文本信息挖掘和使用的思路。尽管当前已经有不少研究成果,但是,我们认为当前的研究仍然存在不足,在本文中,我们将提出一种更深度利用文本信息预测股价的方式。
我们认为,现有结合情感、主题的预测方法主要不足在于:1、情感值参与预测时候仅考虑情感方向、情感强度,没有体现情感的波动。而在同一个文本中(如一个讨论特定话题的帖子),参与者不同,情感有差异,这种差异在传统的情感使用中被抹杀了,只考虑整体的情感方向和數值,本文增加考虑同一个文本中,不同情感表达的差异性,以正向方差、负向方差的方式进行体现。2、当前情感和主题参与预测时候,不考虑社交因素,本文将文本获得的关注度或者影响面加入了考虑,以文本被阅读、被点赞的数据参加模型预测。3、LDA和情感结合使用的时候,目前技术主要是使用LDA来提升对情感分类的准确性,在本文中,我们将情感和主题都当作独立的特征值,参与到LSTM算法模型的预测中。4、当前技术在结合情感进行股价预测的时候,主要使用SVM等传统分类方法进行,本文在算法选择上主要选择LSTM算法。
在文章中,我们将针对如上提到的不足进行优化,主要创新在于,第一、丰富了情感的测量。在纳入到股价预测中的情感指标中,不仅仅考虑了情感值的正负向、情感值的大小,还考虑了情感的波动(每个讨论的情感波动,包括正向情感标准差,负向情感标准差);
第二、考虑了社交特征,将文本的阅读数、点赞数加入到预测模型中,将文本的影响面考虑到,并纳入估计预测模型中;
第三、对股吧本文信息进行了主题挖掘,将发现的主题以新的特征加入到预测模型中。
我们的重要发现包括:基于OLS回归,我们发现:情感值的多少(评论内容)和价格、交易量、交易金额不相关。相对来说,当天积极方向的情感平均值意味着10天后股价的下降。
积极方向的情感值标准差往往意味着股价在未来的上涨。而消极方向的情感值得标准差往往意味着股价在5-10天会下降。消极情感标准差值还和未来10天内的成交股数、成交金额负相关。社交帖子浏览数(Read)和未来成交股数、成交金额呈现显著正相关关系,而和未来股票价格存在显著负相关关系,意味着投资者多浏览帖子和后续的交易选择存在相关性,更大的可能性是在在决定是否买入的环节多浏览帖子会促进购买,而在出售环节,如果多参考网友意见,也会加快出售。即,投资者在买入新股和售出股票环节,都会受到网友的影响。而主题4和主题5的匹配会促进成交股数和成交金额,但是,和股价的显著下降也相关,因此,可以看到主题4和主题5的匹配主要影响股票出售策略。即,讨论如果围绕实业经营、产业周期等,意味着未来交易放量、成交活跃相关但是股价下降。主题1促进促进成交股数、交易金额和股价同步下降,即,交易萎缩、价格下降。主题3和收盘价上涨相关。主题2主要和未来10天的开盘价下跌有关。而在我们挖掘的股吧内容中,主题4和主题5主要涉及
您可能关注的文档
最近下载
- 会计学专业中澳合作项目人才培养方案-南京审计学院-会计学院.PDF VIP
- 环境工程“两平台双能力”专业实践教学体系的构建与创新教改项目立项申请书.doc VIP
- 护士核心能力的培养PPT课件.pptx VIP
- 教师如何点评教学评一致性教学培训经验分享PPT课件.pptx VIP
- 2024年新人教道德与法治一年级上册全册教学课件(新版教材).pptx
- 2025年跨境电商逻辑测试题目及答案.doc VIP
- 挂职锻炼干部个人工作总结PPT.pptx
- 5G优化案例:5G室分覆盖指导建议.docx VIP
- Unit 4 Helping in the community Part A 第1课时课件2025-2026学年度人教PEP英语四年级上册.pptx VIP
- 配电网检修规程,Q_GDW11261-2014.pdf VIP
文档评论(0)