- 1、本文档共116页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
一、DeepSeek简介1.0版
公司背景:DeepSeek成立于2023年7月,是幻方量化旗下的AI公司,专注于通用人工智能(AGI)的研发。
模型简介:DeepSeek开发了V3对话模型和R1推理模型,分别于2024年12月和2025年1月发布。V3采用混合专家架构(MoE),擅长多任务处理和代码生成;R1基于强化学习,专注于复杂推理任务。
市场表现:DeepSeek模型发布后,微信指数飙升,关注度显著提升。
二、DeepSeek技术路线解析
模型架构:R1模型基于V3模型训练,采用混合专家(MoE)架构,包含共享专家和路由专家,通过稀疏激活节约计算资源。
关键技术:
多头潜在注意力(MLA):通过低秩压缩减少内存占用,擅长处理长上下文。
多词元预测(MTP):在训练时预测多个未来词元,不增加训练时间和内存消耗。
FP8混合精度训练:采用低精度优化器状态,降低存储和通信成本。
强化学习中的GRPO:改良PPO算法,提高计算效率,降低内存占用。
开源策略:DeepSeek模型完全开源,符合开源AI定义1.0(OSAID1.0),在模型权重、训练数据、代码等方面完全公开。
三、DeepSeek调用与部署
DeepSeek完全实用手册
云端调用:
用户可通过官方API或第三方API调用DeepSeek模型服务。
云平台如华为云、阿里云等提供模型部署和微调服务。
成本方面,DeepSeekR1模型每百万token输入价格为1元(命中缓存)或4元(未命中缓存),输出价格为16元。
本地部署:
用户可下载满血版或蒸馏版本模型,通过Ollama、vLLM等工具启动。
硬件要求较高,例如671B满血版需4台8卡昇腾910B服务器或2台英伟达H800服务器。
蒸馏版模型有不同参数量版本,显存需求和硬件配置要求较低。
四、如何使用DeepSeek—从技术原理到使用技巧—
独立使用:通过自然语言对话获取核心服务,适用于文本创作、信息咨询、知识推理等场景。
工具组合使用:结合其他工具实现“DeepSeek+”创新工作流,例如:
办公增效:与XMind、飞书等工具结合,实现智能文档处理和数据可视化。
创意设计:与Photoshop、MidJourney等工具结合,实现图像生成和风格化调整。
AI音视频:与Suno、Heygen等工具结合,实现音乐创作和数字人口播。
编程辅助:与HBuilder、Cline等工具结合,实现代码生成和自动化测试。
提示工程:通过优化输入指令(提示词),引导AI模型生成更精准、高质量的输出。
五、趋势判断
开源模型推动AI应用生态繁荣:开源模型降低企业接入AI的成本与门槛,促进AI应用生态的多元化发展。
推理模型或成主流:推理模型通过分解复杂问题、模拟人类思维过程,适用于多环节、结构复杂的任务,增强模型输出的可解释性。
AI技术全面普及:未来,每项业务、每位工作者、每个公司都将接入AI技术,以提升效率和创新能力。
六、注意事项
警惕幻觉:DeepSeekR1模型的幻觉率较高,用户需对生成内容进行判断甄别。
七、DeepSeek最新动向
2025年2月24日起,DeepSeek启动开源周,连续5天开源5个代码库,包括FlashMLA、DeepEP和DeepGEMM等,涉及高效解码内核、专家并行通信库和FP8GEMM库
2025年2月
一、DeepSeek是谁
一、DeepSeek简介
公司背景:DeepSeek成立于2023年7月,是幻方量化旗下的AI公司,专注于通用人工智能(AGI)的研发。
模型简介:DeepSeek开发了V3对话模型和R1推理模型,分别于2024年12月和2025年1月发布。V3采用混合专家架构(MoE),擅长多任务处理和代码生成;R1基于强化学习,专注于复杂推理任务。
市场表现:
您可能关注的文档
- 甬兴证券-小米集团~W-1810.HK-深度报告:新十年目标与征程,“人车家”全生态迈进.pdf
- 国盛证券-电子行业专题研究:AIDC迎发展黄金期,企业级存储需求顺势而上.pdf
- AI医疗行业深度:驱动因素、发展前景、产业链及相关企业深度梳理.pdf
- 电力行业:算力强基要求绿色低碳,绿电消纳需求有望提升.pdf
- 润本股份(603193)深耕细分品类打造质价比,优质国货品牌成长可期.pdf
- 紫金天风-专题-较强的中东地区钢材进口依赖性.pdf
- 技术分析洞察:科创指数确立上行趋势.pdf
- 银河证券-2025年3月份投资组合报告:春潮涌动,把握节奏.pdf
- 航天工程(603698)深度研究:深耕粉煤气化技术,助力新疆煤化工产业腾飞.pdf
- 金元证券-定增市场简析:买在政策放松,行情启动期.pdf
- 建银国际证券-港股熊牛切换走向深化:新质生产力助力打开港股长期上升空间.pdf
- 国金证券-创业板50择时跟踪:2月进一步提升创业板50看涨比例.pdf
- 信用|关注存单和城投下沉的机会.pdf
- 政策半月观:三大方向进一步受重视.pdf
- 固定收益专题报告:建筑行业信用风险及投资价值全梳理.pdf
- AI行业跟踪报告第58期:华勤技术,AI云、端全线卡位,全面受益于AI落地.pdf
- 高频选股因子:大单因子表现继续反弹,AI增强组合持续回撤.pdf
- 投资策略研究*专题报告:科技引领“中国资产”价值重估进度加快.pdf
- 电子行业:高阶智驾加速普及,催动硬件快速放量.pdf
- 浙商证券-北汽蓝谷-600733-北汽蓝谷深度报告:联袂小马打造无人出租,携手华为进军全民智驾.pdf
文档评论(0)