精微调校 DeepSeek R1 模型，赋能医疗精准问答：开源 AI 的潜力释放.docxVIP

下载本文档

1
0
约8.72千字
约 13页
2026-01-08 发布于四川
举报
版权申诉

精微调校 DeepSeek R1 模型，赋能医疗精准问答：开源 AI 的潜力释放.docx

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

精微调校DeepSeekR1模型，赋能医疗精准问答：开源AI的潜力释放

DeepSeek?推出一系列先进推理模型，挑战OpenAI行业地位，且完全免费、无使用限制，惠及所有用户。

本文将介绍如何使用HuggingFace的医学思维链数据集，对DeepSeek-R1-Distill-Llama-8B模型进行微调。这款精简版?DeepSeek-R1?模型，通过在DeepSeek-R1生成的数据上微调Llama38B模型而得，展现出与原模型相近的卓越推理能力。

DeepSeekR1解密

DeepSeek-R1与DeepSeek-R1-Zero在数学、编程及逻辑推理任务中，性能均可比肩OpenAI的o1模型。值得一提的是，R1和R1-Zero均为开源模型。

DeepSeek-R1-Zero

DeepSeek-R1-Zero作为首个完全采用大规模强化学习(RL,ReinforcementLearning)训练的开源模型，有别于传统以监督微调(SFT,SupervisedFine-Tuning)为初始步骤的模型。这种创新方法赋予了模型独立探索思维链(CoT,Chain-of-Thought)推理的能力，使其能够解决复杂问题并迭代优化输出结果。然而，此方法也带来了一些挑战，例如推理步骤可能出现重复、可读性降低以及语言风格不统一等问题，进而影响模型的清晰度和实用性。

DeepSeek-R1

DeepSeek-R1的发布旨在克服DeepSeek-R1-Zero的不足。通过在强化学习之前引入冷启动数据，DeepSeek-R1为推理和非推理任务奠定了更坚实的基础。这种多阶段训练策略使得DeepSeek-R1在数学、编程和推理基准测试中，能够达到与OpenAI-o1匹敌的领先水平，并显著提升了输出内容的可读性与连贯性。

DeepSeek蒸馏模型

DeepSeek还推出了蒸馏模型系列。这些模型在保持卓越推理性能的同时，体积更小、效率更高。虽然参数规模从1.5B到70B不等，但这些模型均保留了强大的推理能力。其中，DeepSeek-R1-Distill-Qwen-32B在多项基准测试中，性能超越了OpenAI-o1-mini模型。更小规模的模型继承了大型模型的推理模式，充分证明了蒸馏技术的有效性。

DeepSeekR1微调实战

1.环境配置

在本次模型微调实践中，选用Kaggle作为云端IDE，原因在于Kaggle提供了免费的GPU资源。最初选择了两块T4GPU，但最终仅使用了一块。若用户希望在本地计算机上进行模型微调，则至少需要配备一块具备16GB显存的RTX3090显卡。

首先，启动一个新的Kagglenotebook，并将用户的HuggingFace?token?和?Weights?Biasestoken添加为密钥。

完成密钥设置后，安装?unsloth?Python包。Unsloth是一款开源框架，旨在将大型语言模型(LLM)的微调速度提升一倍，并显著提高内存效率。

%%capture

!pipinstallunsloth

!pipinstall--force-reinstall--no-cache-dir--no-depsgit+/unslothai/unsloth.git

接下来，登录HuggingFaceCLI。此步骤对于后续下载数据集以及上传微调后的模型至关重要。

fromhuggingface_hubimportlogin

fromkaggle_secretsimportUserSecretsClient

user_secrets=UserSecretsClient()

hf_token=user_secrets.get_secret(HUGGINGFACE_TOKEN)

然后，登录WeightsBiases(wandb)，并创建一个新项目，以便跟踪实验过程和微调进度。

importwandb

wb_token=user_secrets.get_secret(wandb)

wandb.login(key=wb_token)

run=wandb.init(

project=Fine-tune-DeepSeek-R1-Distill-Llama-8BonMedicalCOTDataset,

job_type=training,

anonymous=allow

)

2.模型与tokenizer加载

在本文的实践中，加载了Unsloth版本的De

您可能关注的文档

文档评论（0）

AI优质资料创作家 + 关注: 实名认证

文档贡献者

工业和信息化人才能力认证持证人

从事10年计算机专业，目前是AI算法工程师，致力于将自己的知识和想法整理出来帮助到有需要的朋友。

咨询Ta 进入空间

领域认证该用户于2024年06月20日上传了工业和信息化人才能力认证

1亿VIP精品文档

更多 >

精微调校 DeepSeek R1 模型，赋能医疗精准问答：开源 AI 的潜力释放.docxVIP