基于蒸馏大模型的金融文本信息挖掘应用探索.pdfVIP

下载本文档

9
0
约6.59万字
约 24页
2023-05-19 发布于广西
举报

基于蒸馏大模型的金融文本信息挖掘应用探索.pdf

数据治理专题（四）｜2023.5.9 ▍语义大模型时代来临，更强的 NLP 技术有望赋能金融文本应用在NLP 技术上，语义大模型有哪些特点和优势？特点一：基于Transformer 结构深度提取语料信息。2017 年，Ashish Vaswani 在论文《Attention Is All You Need 》中首次提出了 Transformer 结构，后续的大模型基于 Transformer 结构在海量语料上训练学习，进而生产亿级参数。其中，BERT 模型采用 Transformer 的编码器模块，而GPT 系列则采用Transformer 的解码器模块。特点二：采用“超大样本+自监督学习算法”增强大模型性能。自监督学习算法能在无标注数据上进行训练。大模型学习数据量更大，参数量更大，则泛化能力更强。2022 年，Karl Cobbe 在论文《Emergent Abilities of Large Language Models》中实验证明了大模型的表现并非随着规模增加而线性增长，而是训练量或者参数量提升到一定临界值后大幅增强。特点三：经过“小样本+迁移学习算法”微调，模型在垂直应用场景中性能提升明显。迁移学习是将从一项任务（例如，文本分类）中学到的“知识”应用到另一项任务中（例如，情感分析）。大模型借助迁移学习在小样本中微调，可适配不同垂直场景任务。OpenAI 表示，经过微调后的大模型在不同应用中的提升非常明显（例如，微调后 GPT-3 在解决数学题中准确度能提升2-4 倍）。图1：大模型基础Transformer 的结构图2 ：通用GPT-3 和微调后GPT-3 分别在数学题目上的正确率通用GPT-3的准确率微调后GPT-3的准确率 80% 60% 40% 20% 0% Curie版本GPT-3 Davinci版本GPT-3 资料来源：《Attention Is All You Need》Ashish Vaswani ，中信证券资料来源：《Training Verifiers to Solve Math Word Problems》Karl 研究部 Cobbe，中信证券研究部请务必阅读正文之后的免责条款 5 数据治理专题（四）｜2023.5.9 在金融文本处理任务中，早期一般采用基于规则或者传统机器学习方法（比如：线性

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于蒸馏大模型的金融文本信息挖掘应用探索.pdfVIP