- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DeepSeekR1671B本地部署教程:基于Ollama和动态量化
这是关于使用?ollama?在本地部署DeepSeekR1671B(未经提炼的完整版本)的(最少)说明。最近有大神?用2000美元跑起DeepseekR1671b,很适合个人使用。
模型
原始的?DeepSeekR1?671B模型大小为720GB,非常庞大。即使是20万美元的怪兽级产品NVIDIADGXH100(8xH100)也难以承受。这里我使用了UnslothAI的动态量化版本,它选择性地将一些重要的层量化为高位,同时将大多数MoE层保留为低位。因此,该模型可以量化到131GB(1.58位)的小尺寸,让本地用户更容易访问。它甚至可以在单个MacStudio(5.6万美元)上运行!
我根据我的工作站的规格选择了以下两种型号:
DeepSeek-R1-UD-IQ1_M(671B,动态量化1.73位,158GB,HuggingFace)
DeepSeek-R1-Q4_K_M(671B,标准4位,404GB,HuggingFace)
动态量化型号共有四种,从131GB(1.58位)到212GB(2.51位),您可以根据自己的规格进行选择。四种型号的详细介绍可以在这里找到,我强烈建议您在选择之前先阅读一下。
?
硬件要求
我将针对模型提出以下内存要求,这是主要瓶颈
DeepSeek-R1-UD-IQ1_M:内存+显存≥200GB
DeepSeek-R1-Q4_K_M:内存+显存≥500GB
Ollama允许CPU和GPU混合推理(您可以将一些模型层卸载到VRAM中以加快推理速度),因此您可以将RAM和VRAM粗略地加起来作为总内存空间。除了模型重量(158GB和404GB)外,还应该留出一些内存空间用于上下文缓存。留出的内存空间越多,您可以设置的上下文窗口就越大。
我在工作站上测试了这两种型号,工作站配备四路RTX4090(4x24GB)、四通道DDR55600内存(4x96GB)和ThreadRipper7980XCPU(64核)。请注意,如果您只想运行动态量化版本,则不需要如此“豪华”的配置。粗略地说,生成速度是
DeepSeek-R1-UD-IQ1_M:短文本生成速度为7-8个token/s(约500个token)
如果不使用GPU,则为4-5个令牌/秒(完全在CPU上推理)。
DeepSeek-R1-Q4_K_M:短文本生成速度为2-4个token/s(约500个token)
对于长文本,速度将减慢到1-2个token/s。
我的工作站配置对于大型LLM推理来说并不是最具成本效益的选择(它主要支持我对CircuitTransformer的研究-欢迎查看!)。目前,一些具有成本效益的选项包括
配备大型、高带宽统一内存的AppleMac(例如,配备2x192GB统一内存)。
具有高内存带宽的服务器(像这样,具有24x16GBDDR54800)。
具有两个或更多80GBGPU的云GPU服务器(NvidiaH10080GB每张卡每小时约2美元)
如果你的硬件规格有点受限,你可以考虑最小尺寸(131GB)的1.58位量化版本。它可以在
一台配备192GB统一内存的MacStudio(参考价格,约5600美元)
2xNvidiaH10080GB(参考价,每小时约4美元)
速度不错(10个令牌/秒)。
?
步骤
从HuggingFace下载模型文件(.gguf)(最好使用下载器,我使用XDM),然后将分离的文件合并为一个^1^。
安装ollama
curl-fsSL/install.sh|sh
创建一个模型文件,指导ollama创建模型
DeepSeekQ1_Modelfile(对于)的内容DeepSeek-R1-UD-IQ1_M:
FROM/home/snowkylin/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETERnum_gpu28
PARAMETERnum_ctx2048
PARAMETERtemperature0.6
TEMPLATE|User|{{.System}}{{.Prompt}}|Assistant|
DeepSeekQ4_Modelfile(对于)的内容DeepSeek-R1-Q4_K_M:
FROM/home/snowkylin/DeepSeek-R1-Q4_K_M.gguf
PARAMETER
您可能关注的文档
- Cline 最佳组合:使用 DeepSeek R1 进行规划,3.5-Sonnet 进行代码实施.docx
- DeepSeek正确使用指南!可以放弃提示词那套了.docx
- KAG:国产开源 AI 知识库框架深度解析与安装教程.docx
- 在 Obsidian 中本地运行 DeepSeek:完整新手指南.docx
- 面向大规模定制自动虚拟计量与目标值调整.pdf
- 小王子第1天核心笔记:疑难句子与理解.pdf
- 飞机穿越秦岭遇险记:周恩来临危不惧展现高尚品质.pdf
- 食品级角夹具:电抛光不锈钢外壳,符合1672-2.pdf
- 轨道交通示范区线东延伸工程调整方案.pdf
- 纳米粒子递送癌症药物进展与应用.pdf
最近下载
- 2022二级建造师《机电》章节练习6.1.docx VIP
- 荆轲刺秦王教学课件.ppt VIP
- 《角膜移植手术》课件.ppt VIP
- 2008年工业企业厂界环境噪声排放标准.pdf VIP
- 2025年第十九届天原杯全国初中奥林匹克化学竞赛试题及答案 .pdf VIP
- GB50169-2016 电气装置安装工程接地装置施工及验收规范.docx VIP
- 人教版三年级数学上册第八单元《分数的初步认识》课堂作业设计.pdf VIP
- 中药饮片产品质量回顾分析报告.pdf VIP
- 2022二级建造师《机电》章节练习5.31.docx VIP
- 山东省泰安市肥城市2024-2025学年八年级上学期1月期末考试历史试题 .docx VIP
原创力文档


文档评论(0)