DeepSeek R1 671B 本地部署教程:基于 Ollama 和动态量化.docxVIP

DeepSeek R1 671B 本地部署教程:基于 Ollama 和动态量化.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

DeepSeekR1671B本地部署教程:基于Ollama和动态量化

这是关于使用?ollama?在本地部署DeepSeekR1671B(未经提炼的完整版本)的(最少)说明。最近有大神?用2000美元跑起DeepseekR1671b,很适合个人使用。

模型

原始的?DeepSeekR1?671B模型大小为720GB,非常庞大。即使是20万美元的怪兽级产品NVIDIADGXH100(8xH100)也难以承受。这里我使用了UnslothAI的动态量化版本,它选择性地将一些重要的层量化为高位,同时将大多数MoE层保留为低位。因此,该模型可以量化到131GB(1.58位)的小尺寸,让本地用户更容易访问。它甚至可以在单个MacStudio(5.6万美元)上运行!

我根据我的工作站的规格选择了以下两种型号:

DeepSeek-R1-UD-IQ1_M(671B,动态量化1.73位,158GB,HuggingFace)

DeepSeek-R1-Q4_K_M(671B,标准4位,404GB,HuggingFace)

动态量化型号共有四种,从131GB(1.58位)到212GB(2.51位),您可以根据自己的规格进行选择。四种型号的详细介绍可以在这里找到,我强烈建议您在选择之前先阅读一下。

?

硬件要求

我将针对模型提出以下内存要求,这是主要瓶颈

DeepSeek-R1-UD-IQ1_M:内存+显存≥200GB

DeepSeek-R1-Q4_K_M:内存+显存≥500GB

Ollama允许CPU和GPU混合推理(您可以将一些模型层卸载到VRAM中以加快推理速度),因此您可以将RAM和VRAM粗略地加起来作为总内存空间。除了模型重量(158GB和404GB)外,还应该留出一些内存空间用于上下文缓存。留出的内存空间越多,您可以设置的上下文窗口就越大。

我在工作站上测试了这两种型号,工作站配备四路RTX4090(4x24GB)、四通道DDR55600内存(4x96GB)和ThreadRipper7980XCPU(64核)。请注意,如果您只想运行动态量化版本,则不需要如此“豪华”的配置。粗略地说,生成速度是

DeepSeek-R1-UD-IQ1_M:短文本生成速度为7-8个token/s(约500个token)

如果不使用GPU,则为4-5个令牌/秒(完全在CPU上推理)。

DeepSeek-R1-Q4_K_M:短文本生成速度为2-4个token/s(约500个token)

对于长文本,速度将减慢到1-2个token/s。

我的工作站配置对于大型LLM推理来说并不是最具成本效益的选择(它主要支持我对CircuitTransformer的研究-欢迎查看!)。目前,一些具有成本效益的选项包括

配备大型、高带宽统一内存的AppleMac(例如,配备2x192GB统一内存)。

具有高内存带宽的服务器(像这样,具有24x16GBDDR54800)。

具有两个或更多80GBGPU的云GPU服务器(NvidiaH10080GB每张卡每小时约2美元)

如果你的硬件规格有点受限,你可以考虑最小尺寸(131GB)的1.58位量化版本。它可以在

一台配备192GB统一内存的MacStudio(参考价格,约5600美元)

2xNvidiaH10080GB(参考价,每小时约4美元)

速度不错(10个令牌/秒)。

?

步骤

从HuggingFace下载模型文件(.gguf)(最好使用下载器,我使用XDM),然后将分离的文件合并为一个^1^。

安装ollama

curl-fsSL/install.sh|sh

创建一个模型文件,指导ollama创建模型

DeepSeekQ1_Modelfile(对于)的内容DeepSeek-R1-UD-IQ1_M:

FROM/home/snowkylin/DeepSeek-R1-UD-IQ1_M.gguf

PARAMETERnum_gpu28

PARAMETERnum_ctx2048

PARAMETERtemperature0.6

TEMPLATE|User|{{.System}}{{.Prompt}}|Assistant|

DeepSeekQ4_Modelfile(对于)的内容DeepSeek-R1-Q4_K_M:

FROM/home/snowkylin/DeepSeek-R1-Q4_K_M.gguf

PARAMETER

文档评论(0)

AI优质资料创作家 + 关注
实名认证
文档贡献者

工业和信息化人才能力认证持证人

从事10年计算机专业,目前是AI算法工程师,致力于将自己的知识和想法整理出来帮助到有需要的朋友。

领域认证该用户于2024年06月20日上传了工业和信息化人才能力认证

1亿VIP精品文档

相关文档