网站大量收购独家精品文档,联系QQ:2885784924

大语言模型在投研中的应用:DeepSeek、QwQ.pdf

大语言模型在投研中的应用:DeepSeek、QwQ.pdf

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PP2

目录

1.概述:AI赋能投研应用

2.模型技术架构

3.投研场景适配性分析

4.量化研究中的技术适配

5.本地部署

6.大语言模型在投研中的应用未来演进方向

守正出奇宁静致远

PP3

1、概述:AI赋能投研应用

1.1概述

➢传统投研面临两大核心瓶颈:非结构化数据处理效率低下与量化模型信号维度单一。

•分析师花费大量时间处理财报、新闻、电话会议记录等文本数据,且人工提取关键指标存

在一定误差率。

•量化策略依赖结构化数据(如价格、财务指标),难以捕捉政策变化、市场情绪等文本隐

含信号。

➢DeepSeek、QwQ-32B与Manus等大语言模型先后发布,为投研场景带来新的技术支持。

•DeepSeek-R1:6710亿参数的混合专家(MoE)模型,专注深度推理与跨模态分析;

•QwQ-32B:阿里开源的320亿参数推理模型,以强化学习突破参数限制,性能比肩DeepSeek;

•Manus:Monica公司的多代理架构模型,通过任务分解与工具调用实现端到端流程自动化。

本报告将深入解析三者的技术差异,并结合投研与量化研究的核心需求,提出场景适配框架与

实施路径。

守正出奇宁静致远

PP4

2、模型技术架构

2.1DeepSeek-R1架构设计创新

DeepSeek-R1采用稀疏混合专家(SparseMoE)架构,包含1个共享专家和256个领域专家,每次

推理仅激活6%参数(约370亿)其核心技术突破体现在:

➢双流编码器:文本流(处理自然语言)与代码流(执行逻辑运算)通过跨模态注意力矩阵实

现动态融合(如非结构化文本转化为估值模型处理速度提升)。

➢多头潜在注意力(MLA):通过低秩压缩技术将KV缓存占用降低至传统架构的5%-13%,支持12

万字长文本处理(如完整上市公司年报分析)。

➢冷启动数据策略:引入数千条高质量数学/代码样本进行预训练微调,解决纯强化学习导致的

“语言混合”问题,提升模型稳定性。

守正出奇宁静致远

PP5

2.2DeepSeek-R1训练流程图

图表1:DeepSeek-R1训练流程图

强化学习:GRPO

DeepSeek-V3DeepSeek-R1-Zero

•准确性奖励:数学、逻辑、代码

•格式奖励

数k个长CoT冷启动数据

•为RL提供稳定基础

第一次SFT•结构化推理过程

增强推理能力

第一次强化学习•

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档