基于蒸馏大模型的金融文本信息挖掘应用探索.pdfVIP

  • 9
  • 0
  • 约6.59万字
  • 约 24页
  • 2023-05-19 发布于广西
  • 举报

基于蒸馏大模型的金融文本信息挖掘应用探索.pdf

数据治理专题(四) |2023.5.9 ▍语义大模型时代来临,更强的 NLP 技术有望赋能金 融文本应用 在NLP 技术上,语义大模型有哪些特点和优势? 特点一:基于Transformer 结构深度提取语料信息。2017 年,Ashish Vaswani 在论 文《Attention Is All You Need 》中首次提出了 Transformer 结构,后续的大模型基于 Transformer 结构在海量语料上训练学习,进而生产亿级参数。其中,BERT 模型采用 Transformer 的编码器模块,而GPT 系列则采用Transformer 的解码器模块。 特点二:采用“超大样本+自监督学习算法”增强大模型性能。自监督学习算法能在 无标注数据上进行训练。大模型学习数据量更大,参数量更大,则泛化能力更强。2022 年,Karl Cobbe 在论文 《Emergent Abilities of Large Language Models》中实验证明了 大模型的表现并非随着规模增加而线性增长,而是训练量或者参数量提升到一定临界值后 大幅增强。 特点三:经过“小样本+迁移学习算法”微调,模型在垂直应用场景中性能提升明显。 迁移学习是将从一项任务(例如,文本分类)中学到的“知识”应用到另一项任务中(例 如,情感分析)。大模型借助迁移学习在小样本中微调,可适配不同垂直场景任务。OpenAI 表示,经过微调后的大模型在不同应用中的提升非常明显(例如,微调后 GPT-3 在解决 数学题中准确度能提升2-4 倍)。 图1:大模型基础Transformer 的结构 图2 :通用GPT-3 和微调后GPT-3 分别在数学题目上的正确率 通用GPT-3的准确率 微调后GPT-3的准确率 80% 60% 40% 20% 0% Curie版本GPT-3 Davinci版本GPT-3 资料来源:《Attention Is All You Need》Ashish Vaswani ,中信证券 资料来源:《Training Verifiers to Solve Math Word Problems》Karl 研究部 Cobbe,中信证券研究部 请务必阅读正文之后的免责条款 5 数据治理专题(四) |2023.5.9 在金融文本处理任务中,早期一般采用基于规则或者传统机器学习方法(比如:线性

文档评论(0)

1亿VIP精品文档

相关文档