- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2核心观点DeepSeek开源使金融机构能够轻松获得前沿模型能力,且大幅降低部署成本。其通过对训练方式、算法架构和推理方法的工程化优化大幅降低了部署成本。近期采用大规模RL训练方法的阿里QwQ-32B等模型也在缩小规模的同时达到了DeepSeekR1671B的应用效果,有望进一步催生银行落地应用。我们认为金融行业人工智能的应用价值大体可以分为三个层次:降本增效,价值创造与决策赋能。在实际银行落地应用中,可能包括:1)降本增效:智能客服、信贷审批、合同质检;2)价值创造:AI编程、智能风控、智能营销等;3)决策赋能:深度分析和决策辅助。从实际落地应用情况看,大行发力更早,中小银行正在快速追赶。如工商银行、建设银行、招商银行等大行布局更早,邮储银行、浦发银行、江苏银行等也有较为领先布局应用。AI一体机的出现为机构提供了全新的解决方案,凭借其开箱即用、软硬件一体化设计等优势,正在成为很多中小银行智能化转型的重要选择。建议关注:宇信科技、京北方、天阳科技、长亮科技、百融云等。风险提示:AI技术落地不及预期、竞争加剧、信息更新不及时等。
3目录CCONTECONTENTS1DeepSeek开源、低成本、强推理助推银行业应用
图表:随步数提升R1-Zero的AIME任务准确度资料来源:DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning,性能:后训练阶段大规模应用强化学习,表现推理能力扩展? DeepSeek模型在Post-Train阶段大规模应用了强化学习方法。R1使用了冷启动+大规模强化学习方法,R1-Zero版本模型使用纯强化学习方法。随训练过程推进,模型展现出了推理能力的扩展(高准确率和long-CoT能力涌现等)。图表:深度思考能力提升资料来源:DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning,DeepSeek-R1-Zero的能力随步数提升DeepSeek-R1-Zero自然涌现long-CoT能力4
图表:DeepSeekR1架构图资料来源:DeepSeek,性能:DeepSeek推理架构优化,可适配银行高并行、高响应的业务场景? DeepSeek通过优化训练方法显著降低了算力消耗,使其在大规模数据处理中的成本更具优势。它在MoE架构的基础上,通过多头潜注意力机制(Multi-HeadLatentAttention,MLA)进行优化;在后训练阶段采用冷启动+大规模强化学习方式,不再使用传统SFT做大规模监督微调,甚至绕过了一些CUDA,采用PTX汇编来提升能力;在推理场景下通过大规模跨节点专家并行(ExpertParallelism,EP)来优化通信开销,尽可能实现负载均衡。图表:DeepSeekR1训练方法资料来源:木尧,5
图表:DeepSeekDAU快速增长资料来源:AI产品榜,图表:闭源模型与开源模型的差距正在缩小资料来源:EpochAI,开源易获得:DeepSeek使私有化部署模型也能够追平前沿闭源模型水平? 以DeepSeekR1为代表的优秀开源模型的能力离闭源模型越来越近。行业普遍认为如果开源软件达到闭源80%以上能力,就足以压缩闭源的生存空间。DeepSeek能力能够比肩OpenAIo1,开源使各行业机构能够轻松获取前沿模型能力,且可直接进行私有化部署或商业化开发。6
图表:DeepSeekR1成本与理论收入资料来源:DeepSeek,成本:DeepSeek低价策略下理论成本利润率依旧可达545%,部署成本极低? DeepSeek理论成本利润率极高,成本还有优化空间。通过优化,能够在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。以2025年2月27-28日数据为例,DeepSeekV3和R1推理服务占用节点总和,峰值占用为278个节点,平均占用226.75个节点(每个节点为8个H800GPU)。假定GPU租赁成本为2美金/小时,总成本为$87,072/天。如果所有tokens全部按照DeepSeekR1的定价计算,理论上一天的总收入为$562,027,成本利润率545%。图表:DeepSeek服务负荷统计7资料来源:DeepSeek,
性能:开源QwQ-32B性能比肩满血R1,再次降低部署成本? 阿里近期开源的QwQ-32B模型基于320亿参数规模,在数学推理、代码生成及通用任务中表现亮眼,综合性能对标DeepSeek
您可能关注的文档
- 2024年海外航空行业市场景气跟踪总结:全球航空业复苏态势持续,机遇与挑战并存.pptx
- 2025春季银行业重视险资入市蓝海,看好银行绝对收益.pptx
- 2025年春季A股立足结构牛,准备全面牛.pptx
- 2025年春季ESG基于大模型构建央企ESG评价体系.pptx
- 2025年春季电商零售行业提振内需,AI变革.pptx
- 2025年春季钢铁行业供给约束强化,关注春旺行情.pptx
- 2025年春季港股及海外中资股一枝先破玉溪春.pptx
- 2025年春季环保行业环保红利与化债共振,生物航煤引领成长.pptx
- 2025年春季建材行业把握春旺,关注提价与发货改善.pptx
- 2025年春季金属行业乘风破浪正当时.pptx
文档评论(0)