详解DeepSeek模型训练优化及数据处理的技术精髓.pdf

下载文档

0
0
约2.83万字
约 27页
2025-03-03 发布于上海
举报
版权申诉
保障服务

详解DeepSeek模型训练优化及数据处理的技术精髓.pdf

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

详解DeepSeek模型训练优化

及数据处理的技术精髓

2025.3.3

BUSINESS

REPORT汇报人：零竖质量

微信公众号：零竖质量

DeepSeek是什么

DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的一款创新大语言模型。公司成立于2023年7月17日，由知

名私募巨头幻方量化孕育而生。DeepSeek致力于开发和应用先进的大语言模型技术

深度小助手聪明且低成本聪明强大能干中国本土AI

深度思考联网搜索

微信公众号：零竖质量

DeepSeek：大语言模型的特点有哪些?

模型训练无自我认识上下文长度限定回答输出

内容token

存在无自我意识记忆力有限长度有限

化

endtime

大模型看到的世界与人大模型训练语料存在一网上有个段子是“有AI大模型目前的记忆AI大模型目前的回答

看到的不太一样个截止时间人问deepseek你是力大概是64k~128k4k~8k，2000~4000字

谁，然后回答是gpt”

训练前需要将文本进行处deepseekR1虽然是25年1目前AI大模型均有上下文目前AI大模型无法一次性

理，比如切割称为Token月发布，但它的知识库截目前AI大模型不知道自己长度限定；deepseekr1完成万字长文，也无法一

的基本单元；比如问ai一止日期是2023年12月，这是谁，也不知道自己是采提供64ktoken上下文长次性输出5千字，均是模型

个英文单词illegal中有几就意味着ds可以提供在此用什么模型。除非是厂商度，对应中文的话大约3输出长度限制所致；如果

个字母l，有些指令模型回日期发布之前的公开信息在后期再微调、或再训练，万是输出长文，可以尝试先

答为2个；和常识；需要经过大量清如果大家问到类似的问题，~4万字。目前还不能一次让AI大模型先生成一个目

洗、监督微调、反馈强化可能目前的AI大模型会回性投喂太长的文档给它，录，然后再根据目录输出

但deepseekr1推理学习。但对于之后的新闻、答错误。比如：一本完成西游记、对应模块；如果是长文翻

模型是可以回答正确！事件变化、新事物则无法或者非常长的文档让它翻译类，则多次输入，或者

直接获取或验证。解决办法是少问AI是译，AI它是没有办法完整拆解后多次调用API

读完

谁、采用什么模型

解决办法是开启联网模解决办法是将任务分解

式或提示词中补充说

您可能关注的文档

文档评论（0）

零竖质量 + 关注: 实名认证

内容提供者

专注数智化转型升级，致力于研究各行业数智化建设、大数据与数据治理、信息安全、人工智能与元宇宙等业务顶层设计咨询+落地解决方案。微信公众号同名。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

详解DeepSeek模型训练优化及数据处理的技术精髓.pdf