- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
行业与个股新闻对股票价格影响的定量分析.doc
行业与个股新闻对股票价格影响的定量分析
摘要:本文提出了挖掘新闻文本预测股票价格系统,引入情感分类评价理论,将新闻文本转化为结构化数据,建立机器学习模型分析互联网新闻对股票价格的影响。研究主要采用了支持向量机、贝叶斯算法以及粗糙集组合模型分别对行业新闻和个股新闻进行预测。研究发现新闻信息样本的数量和质量会影响预测的准确度;证券行业中个股新闻影响度大于行业新闻;粗糙集组合模型更能准确地预测行业股价的走势。
关键词:文本挖掘 新闻 支持向量机 贝叶斯分类 粗糙集 股票价格
注:2014年国家级创新基金项目(项目编号201410287046):基于文本挖掘技术的网络新闻对中国股市影响的分析预测
随着互联网技术的不断发展,互联网新闻中包含了越来越多的财经资讯。财经网站已经演变成投资者用来交换想法与新闻媒体传播的主流载体,行业新闻与个股新闻在证券市场上对投资者的投资决策起到关键性作用。但是,投资者从海量的财经新闻中分离出有效的信息仍然存在着较大困难。因此,提供一种科学有效的方法来帮助投资者判断新闻的影响力是至关重要的。
目前,探索互联网媒体与股市关系的传统研究较少,大多数学者在有限理性假说的基础上,对投资者心理、投资行为、市场信息非对称性、政府对新闻媒体的控制以及财经新闻语义分析等方面进行研究,其研究结果偏理论性和概括性。而近几年,随着大数据的不断成熟,数据挖掘技术在证券市场预测上的运用也逐渐增加。
互联网财经新闻所蕴含的数据是非结构化的,所以将新闻量化成可视化的时间序列数据具有一定的挑战性。国内学者运用文本分类的基本方法对新闻标题或者板块个股的新闻进行情感分类,构建中文分词词典和情感词典。分词方面,罗海飞等在不断改进贝叶斯算法的基础上进一步提高文本分类的正确率。西南财经大学赵丽丽等主要应用文本挖掘技术和多元线性回归分析方法,结合股票主要技术主表就互联网财经新闻对股市影响进行了实证分析与定量研究。国外机器学习领域的学者以互联网社交媒体为主要研究对象,根据用户表达的投资意愿来分析其与股价之间的联系,运用支持向量回归模型、多核学习方法等建立股价预测模型。历史研究表明,智能方法与传统的CAPM和Fama四因素股价预测模型相比具有更高的准确性。
本文将运用数据挖掘技术分别预测个股新闻与行业新闻对股价的影响,建立智能方法模型,比较股价预测模型的准确性,在国内研究中具有创新意义。
一、方法
(一)系统概述
图一阐述了我们预测系统的全面流程。首先,我们需要搜集数据。在这过程中,我们运用文本挖掘技术抓爬财经网站上的数据,并建立相关股票新闻数据库。其次,我们在这些无结构数据中分离出有用的信息。我们去除HTML的标签,并且分离出有用的新闻特征,例如时间、新闻文本等,对新闻进行文本情感分类,将无结构数据量化。最后,我们的系统能够通过运用支持向量机(SVM)、贝叶斯算法、粗糙集模型对证券价值分别进行预测。
(二)数据搜集
我们选择证券行业为主要研究对象,在新浪财经网站(http:///stock/)上搜集了证券行业18家股票的个股新闻和行业新闻。本研究抓取了2012年12月至2014年9月期间的行业新闻5063条,个股新闻10309 条。其中,将2012年12月至2014年7月作为训练集时间段,选取2014年8月至9月作为预测集时间段,采用训练好的模型预测2014年8至9月期间每一则新闻报道对股票收益所产生的影响。本文以前一天15点到次日15点为T日,建立2012年12月4日至2014年9月26日期间的新闻文本资料库。
(三)情感分类
对于情感分类引入评价理论,通过从文本中提取形容词及修饰语构成的短语作为特征,进行语义倾向分析。本文将股票新闻的情感特征词划分为情感词和行为词两类,并进一步分为5个维度(正、负、程度、否定词、不确定词),利用ICTCLAS程序接口以及C++对所有新闻文本进行了分词,建立金融特征词库。
(四)文本结构化处理
在处理数据的过程中,本文基于金融特征词库,进行特征选择,利用向量空间模型(Vector Space Model,简称VSM)将无结构数据的新闻文本转换成计算机可以处理的结构化向量。通过TFIDF方法评估每个特征词在整个文档集中的重要程度。
(五)学习模型
1、SVM模型
SVM模型由Vapnik首先提出,主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化。本文选用的是SVM模型中的C-SVC的分类器,其过程如下:
基于libsvm工具箱,本文选用多项式核函数,以结构化的文本向量及股票收益率为模型的输入。其中,每日股票收益率采用的是新闻当天数据,周末新闻算为下周一数据,对
文档评论(0)