人工智能系列分析报告:舆情因子和BERT情感分类模型.pdf

人工智能系列分析报告:舆情因子和BERT情感分类模型.pdf

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
证券研究报告 金工研究/深度研究 2020 年10月22 日 舆情因子和BERT 情感分类模型 华泰人工智能系列之三十七 本文研究了基于金融新闻的舆情因子,并测试了BERT 文本情感分类模型 随着国内量化投资的发展,挖掘另类数据中的增量信息逐渐受投资者关注。 另类数据中一大类数据就是舆情文本数据。本文提取 Wind 金融新闻数据 中的情感正负面标签构建新闻舆情因子,因子在沪深300 内表现最好。进 一步地,本文介绍了前沿的自然语言处理(NLP)模型 BERT 的原理和训练 方法,并基于 Wind 的有标注金融新闻数据训练金融新闻情感分类模型, 模型在正负不平衡样本上达到了很高的预测精度。最后,本文介绍了 BERT 模型可解释性工具 LIT。通过LIT 可分析文本中字符对于预测结果的重要性 并帮助理解BERT 的学习机制。 相关研究 基于金融新闻的舆情因子具有一定选股效果,在沪深300 内表现最好 1 《金工: 风格稳定的绩优股票基金筛选策略》 本文基于 Wind 金融新闻数据,提取其中的情感正负面标签,构建日频的 2020.10 新闻舆情因子。2017 年以来,因子在沪深300、中证500、全A 股的平均 2 《金工: 2020 年三季度中国 ETF 市场回顾》 覆盖率分别为84.41%,76.16%,63.03%,且覆盖率随时间推移逐渐上升。 2020.10 3《金工: 竞速科技赛道:科技投资新工具》2020.10 因子在沪深 300 成分股内表现最好,行业市值中性后 RankIC 均值为 6.13%,IC_IR 为0.42,分5 层测试中TOP 组合年化收益率为17.79%, 多空组合夏普比率为1.66。因子在中证500 成分股内表现次之,在全A 股 内则表现最差。 前沿的NLP 模型 BERT 能实现高精度的金融新闻情感分类 近年来, NLP 领域最前沿的研究成果是预训练模型BERT。模型首先使用 大量无监督语料进行语言模型预训练,再使用少量标注语料进行微调来完 成具体任务(如本文的金融新闻情感分类)。本文介绍了BERT 的核心原理: Transformer 和自注意力机制。随后,本文基于Wind 的有标注金融新闻数 据,使用BERT 训练金融新闻情感分类模型。模型在正负不平衡样本上达 到了很高的预测精度,样本外的准确率为0.9826,AUC 为0.9746,精确 率为0.9736,召回率为0.9744。 打开BERT 模型的黑箱:模型可解释性工具LIT 介绍 BERT 模型结构复杂且参数量庞大,本文借助Google 发布的开源NLP 模 型可解释性工具LIT 来打开BERT 的黑箱,理解BERT 的 “思考过程”。 LIT 有两个重要

文档评论(0)

topband + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6022005030000000

1亿VIP精品文档

相关文档