大语言模型在投研中的应用：DeepSeek、QwQ.pdf

下载文档

17
0
约1.4万字
约 27页
2025-03-25 发布于北京
举报
版权申诉
保障服务

大语言模型在投研中的应用：DeepSeek、QwQ.pdf

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PP2

1.概述：AI赋能投研应用

2.模型技术架构

3.投研场景适配性分析

4.量化研究中的技术适配

5.本地部署

6.大语言模型在投研中的应用未来演进方向

守正出奇宁静致远

PP3

1、概述：AI赋能投研应用

1.1概述

➢传统投研面临两大核心瓶颈：非结构化数据处理效率低下与量化模型信号维度单一。

•分析师花费大量时间处理财报、新闻、电话会议记录等文本数据，且人工提取关键指标存

在一定误差率。

•量化策略依赖结构化数据（如价格、财务指标），难以捕捉政策变化、市场情绪等文本隐

含信号。

➢DeepSeek、QwQ-32B与Manus等大语言模型先后发布，为投研场景带来新的技术支持。

•DeepSeek-R1：6710亿参数的混合专家（MoE）模型，专注深度推理与跨模态分析；

•QwQ-32B：阿里开源的320亿参数推理模型，以强化学习突破参数限制，性能比肩DeepSeek；

•Manus：Monica公司的多代理架构模型，通过任务分解与工具调用实现端到端流程自动化。

本报告将深入解析三者的技术差异，并结合投研与量化研究的核心需求，提出场景适配框架与

实施路径。

守正出奇宁静致远

PP4

2、模型技术架构

2.1DeepSeek-R1架构设计创新

DeepSeek-R1采用稀疏混合专家（SparseMoE）架构，包含1个共享专家和256个领域专家，每次

推理仅激活6%参数（约370亿）其核心技术突破体现在：

➢双流编码器：文本流（处理自然语言）与代码流（执行逻辑运算）通过跨模态注意力矩阵实

现动态融合（如非结构化文本转化为估值模型处理速度提升）。

➢多头潜在注意力（MLA）：通过低秩压缩技术将KV缓存占用降低至传统架构的5%-13%，支持12

万字长文本处理（如完整上市公司年报分析）。

➢冷启动数据策略：引入数千条高质量数学/代码样本进行预训练微调，解决纯强化学习导致的

“语言混合”问题，提升模型稳定性。

守正出奇宁静致远

PP5

2.2DeepSeek-R1训练流程图

图表1：DeepSeek-R1训练流程图

强化学习：GRPO

DeepSeek-V3DeepSeek-R1-Zero

•准确性奖励：数学、逻辑、代码

•格式奖励

数k个长CoT冷启动数据

•为RL提供稳定基础

第一次SFT•结构化推理过程

增强推理能力

第一次强化学习•

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

大语言模型在投研中的应用：DeepSeek、QwQ.pdf