《经济和金融领域运用文本大数据研究的相关理论分析与应用综述》1700字.docx

下载文档

1
0
约1.83千字
约 2页
2025-03-10 发布于湖北
举报
版权申诉
保障服务

《经济和金融领域运用文本大数据研究的相关理论分析与应用综述》1700字.docx

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

经济和金融领域运用文本大数据研究的相关理论分析与应用综述

网络文本对情绪的反应

近年来，关于情感分析的研究工作得到许多关注，近年来，关于情感分析的研究工作得到许多关注，相关研究人员在文本情感分析方面经过了不懈努力，取得了较大进步。文本情感分析，是对带有海量数据文本分析处理，挖掘意见，探究情感倾向并预测其变化发展。随着现代科技的迅猛发展，互联网社区交流成为网络用户的新型交流手段，虚拟空间往往让人们能够更直白地表达自己的情绪。投资者情绪指数的构建，关键在于选择合适的搜索关键词集，能够准确全面地反映投资者的心理特征。

网络的虚拟性使民众选择网络平台展现自己的情感，网民的发言真假难辨，有时候许多非理性的情绪更容易借由网络不断传播，对网络社区用户心理产生影响。针对网络舆情的动态分析可以观察到相关情绪变化趋势，对于社会舆情关注有很大作用。

计算机量化金融行为的发展

随着计算机技术的发展，分析繁杂的金融数据并探索相关规律有了更高效的金融量化分析手段REF_Ref31336\r\h[5]。热门的机器学习、深度学习、人工智能、数据挖掘等方面都有不小的应用前景。在预测股票市场发展的可行性方面，孟毅等人(2009)通过用BP神经网络预测股价模型，证明合适的网络模型结构是可以对股票市场进行相对准确的预测孟毅，吕渭济．基于BP神经网络的数据挖掘及在股价预测中的应用[J]

孟毅，吕渭济．基于BP神经网络的数据挖掘及在股价预测中的应用[J]．现代计算机(专业版)，2009(02):106-108+126．

针对金融市场出现的诸多不确定因素以及投资者的心理因素变化，文本大数据分析可以用来对投资者的情绪，波动程度，文本数据变化进行度量，对于定量分析投资者情绪和投资市场舆情状态都有很多帮助，循环神经网络在文本分析中已经得到了较为广泛的运用并取得了一定的成效。传统情感分类方法有基于情感词典分类以及基于机器学习分类两种。

传统的基于情感词典分类要求模型先记入基本的表达文本态度情感的词汇并判断其情感，使用训练后的情感词典进行后续分类的使用，不同领域中某些字或词汇可能有不同的含义，例如“绿”、“熊”等字在投资中往往与亏损等消极因素联系。基于机器学习分类则是选出一部分积极语料与消极语料交给模型学习，再通过训练得出分类规则，获得训练后的标签结果来对测试集进行情感预测，其分析的准确程度会受到情感词典的质量以及词典文本覆盖度的影响。机器学习需要对文本分类进行标注，如将褒义文本标注为1，贬义文本标注为0，将文本含义划分为积极文本与消极文本，这样的标注方法更贴合读者对于文本含义的评价，此外，在一些社区也可以用星级评价，“赞”、“踩”，转发等行为来判断网络用户的情感。分词统计需要构建特征词矩阵，将特征向量化，而一些行业中专用的词汇也需要特别留意，并将其加入词典。机器学习依赖高质量的数据集，需要高质量的特征构造与提取，这对于数据集质量提出了一定的要求。

而深度学习方法将需要分类的评论语料转化为词向量，通过不同的资料语义文本组织和数据合成的分析方法，得到基于相应语料文本的评论特点和语义表达式，最后通过深度神经网络对其语料进行了综合分类，并输出评价结果。而深度学习往往需求文本数据量相当大，有时在数据搜集上较为困难。

神经网络量化文本情绪的发展

情绪分类是通过提取文本语料中的情绪要素，并利用之前训练好的分类模型，将其

划分到之前预定义的情绪类别中。这项技术可以应用于帮助公安机关准确掌握社会情绪动态，为后期实现对网络舆情的监控、预测和管理提供支持。在以往的研究中，针对文本情绪分类的研究大多集中在正负向的情感分类中，并且取得了一定的成果。近年来，对于文本语料的情绪分类逐渐成为自然语言处理领域的热点问题。

随着深度学习理论的不断发展，文本分类的研究重点逐渐转移到了对于合适的神经网络的分类模型的研究上。中文情绪分类已经成为自然语言处理领域的热点问题。互联网评论信息通常为短文本，受字数的限制，往往内容简短、且直接表达含义REF_Ref27451\r\h[12]。中文属于象形文字，它的表达单元虽然也是词，但是却以两个或两个以上的多字词为主，词与词之间没有固定的分隔符，边界非常模糊，在不经过分词的情况下，计算机很难准确识别中文词语的具体含义，也就无法准确完成情绪分类的任务。因此，对语料的分词是否准确是影响模型最终分类效果的一个关键因素。