（30页PPT）大语言模型在投研中的应用DeepSeekQwQ32B与Manus技术解析投研场景与量化应用798kb.pptxVIP

下载本文档

0
0
约8.17千字
约 30页
2025-10-13 发布于广东
举报

（30页PPT）大语言模型在投研中的应用DeepSeekQwQ32B与Manus技术解析投研场景与量化应用798kb.pptx

金融工程|深度研究报告证券研究报告2025/03/15大语言模型在投研中的应用——DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用S1190519070001证券分析编号：刘晓锋S1190522090001证券分析师：分析师登记编号：

P2概述：AI赋能投研应用模型技术架构投研场景适配性分析量化研究中的技术适配本地部署大语言模型在投研中的应用未来演进方向请务必阅读正文之后的免责条款部分守正出奇宁静致远目录

P31.1概述传统投研面临两大核心瓶颈：非结构化数据处理效率低下与量化模型信号维度单一。分析师花费大量时间处理财报、新闻、电话会议记录等文本数据，且人工提取关键指标存在一定误差率。量化策略依赖结构化数据（如价格、财务指标），难以捕捉政策某省市场情绪等文本隐含信号。DeepSeek、QwQ-32B与Manus等大语言模型先后发布，为投研场景带来新的技术支持。DeepSeek-R1：6710亿参数的混合专家（MoE）模型，专注深度推理与跨模态分析；QwQ-32B：阿里开源的320亿参数推理模型，以强化学习突破参数限制，性能比肩DeepSeek；Manus：Monica公司的多代理架构模型，通过任务分解与工具调用实现端到端流程自动化。本报告将深入解析三者的技术差异，并结合投研与量化研究的核心需求，提出场景适配框架与实施路径。请务必阅读正文之后的免责条款部分守正出奇宁静致远1、概述：AI赋能投研应用

P42.1DeepSeek-R1架构设计创新DeepSeek-R1采用稀疏混合专家（SparseMoE）架构，包含1个共享专家和256个领域专家，每次推理仅激活6%参数（约370亿）其核心技术突破体现在：双流编码器：文本流（处理自然语言）与代码流（执行逻辑运算）通过跨模态注意力矩阵实现动态融合（如非结构化文本转化为估值模型处理速度提升）。多头潜在注意力（MLA）：通过低秩压缩技术将KV缓存占用降低至传统架构的5%-13%，支持12万字长文本处理（如某省市公司年报分析）。冷启动数据策略：引入数千条高质量数学/代码样本进行预训练微调，解决纯强化学习导致的“语言混合”问题，提升模型稳定性。请务必阅读正文之后的免责条款部分守正出奇宁静致远2、模型技术架构

P52.2DeepSeek-R1训练流程图DeepSeek-V3DeepSeek-R1-Zero强化学习：GRPO准确性奖励：数学、逻辑、代码格式奖励数k个长CoT冷启动数据第一次SFT第一次强化学习增强推理能力准确性奖励：数学、逻辑、代码语言一致性奖励60w推理数据第二次SFT第二次强化学习DeepSeek-R120w非推理数据全场景强化学习有用性、无害性、精细推理、人类偏好为RL提供稳定基础结构化推理过程通用能力防止任务过拟合DeepSeek-V3的通用能力数据人工标注示例RL生成的多样化内容RL阶段的拒绝采样资料来源：太平洋证券整理图表1：DeepSeek-R1训练流程图请务必阅读正文之后的免责条款部分守正出奇宁静致远

P62、模型技术架构请务必阅读正文之后的免责条款部分守正出奇宁静致远2.3DeepSeek-R1历代模型核心差异图表2：DeepSeek-R1演进过程中历代模型核心差异对比资料来源：太平洋证券整理模型V3R1-ZeroR1R1-Distill架构重点MLA+MoE优化，通用多任务处理纯MoE架构，无SFT阶段V3基座+冷启动SFT+两阶段RL基于Qwen/Llama架构的蒸馏模型训练方法预训练+SFT+DPO纯强化学习（GRPO）SFT+两阶段强化学习知识蒸馏+合成数据微调数据依赖14.8万亿通用数据无标注数据，规则奖励驱动冷启动数据+RL生成混合数据R1生成数据应用场景代码生成、多模态任务科研推理、数学竞赛复杂推理与通用任务平衡轻量化推理、本地部署硬件成本需多GPU服务器（如8×A100）同V3，但生成效率低同V3，优化后推理速度提升30%单卡GPU（如RTX3090）

P72.4QwQ-32B架构设计创新QwQ-32B通过动态稀疏计算与混合精度量化实现轻量高效，其技术核心体现在：动态门控网络：根据输入内容动态分配计算资源，在数学推理任务中激活参数量仅为同规模模型的60%。FP8+INT4混合量化：激活值采用FP8精度（保持数值稳定性），权重矩阵使用INT4量化（压缩率4:1），单卡A100即可承载完整32B参数推理，提升推理速度的同时显著降低显存占用。渐进式蒸馏框架：通过结构-参数-逻辑的三阶段渐进蒸馏，缩短训练。双阶段强化学习训练策略严格结果验证器阶段：直接通过代码执行结果和数学答案正确性提供奖励信号。通用强化学习阶段：引入多维度奖励模型（包括格式规范性、逻辑连贯性），解决单一结果奖

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

（30页PPT）大语言模型在投研中的应用DeepSeekQwQ32B与Manus技术解析投研场景与量化应用798kb.pptxVIP