精微调校 DeepSeek R1 模型,赋能医疗精准问答:开源 AI 的潜力释放.docxVIP

精微调校 DeepSeek R1 模型,赋能医疗精准问答:开源 AI 的潜力释放.docx

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

精微调校DeepSeekR1模型,赋能医疗精准问答:开源AI的潜力释放

DeepSeek?推出一系列先进推理模型,挑战OpenAI行业地位,且完全免费、无使用限制,惠及所有用户。

本文将介绍如何使用HuggingFace的医学思维链数据集,对DeepSeek-R1-Distill-Llama-8B模型进行微调。这款精简版?DeepSeek-R1?模型,通过在DeepSeek-R1生成的数据上微调Llama38B模型而得,展现出与原模型相近的卓越推理能力。

DeepSeekR1解密

DeepSeek-R1与DeepSeek-R1-Zero在数学、编程及逻辑推理任务中,性能均可比肩OpenAI的o1模型。值得一提的是,R1和R1-Zero均为开源模型。

DeepSeek-R1-Zero

DeepSeek-R1-Zero作为首个完全采用大规模强化学习(RL,ReinforcementLearning)训练的开源模型,有别于传统以监督微调(SFT,SupervisedFine-Tuning)为初始步骤的模型。这种创新方法赋予了模型独立探索思维链(CoT,Chain-of-Thought)推理的能力,使其能够解决复杂问题并迭代优化输出结果。然而,此方法也带来了一些挑战,例如推理步骤可能出现重复、可读性降低以及语言风格不统一等问题,进而影响模型的清晰度和实用性。

DeepSeek-R1

DeepSeek-R1的发布旨在克服DeepSeek-R1-Zero的不足。通过在强化学习之前引入冷启动数据,DeepSeek-R1为推理和非推理任务奠定了更坚实的基础。这种多阶段训练策略使得DeepSeek-R1在数学、编程和推理基准测试中,能够达到与OpenAI-o1匹敌的领先水平,并显著提升了输出内容的可读性与连贯性。

DeepSeek蒸馏模型

DeepSeek还推出了蒸馏模型系列。这些模型在保持卓越推理性能的同时,体积更小、效率更高。虽然参数规模从1.5B到70B不等,但这些模型均保留了强大的推理能力。其中,DeepSeek-R1-Distill-Qwen-32B在多项基准测试中,性能超越了OpenAI-o1-mini模型。更小规模的模型继承了大型模型的推理模式,充分证明了蒸馏技术的有效性。

DeepSeekR1微调实战

1.环境配置

在本次模型微调实践中,选用Kaggle作为云端IDE,原因在于Kaggle提供了免费的GPU资源。最初选择了两块T4GPU,但最终仅使用了一块。若用户希望在本地计算机上进行模型微调,则至少需要配备一块具备16GB显存的RTX3090显卡。

首先,启动一个新的Kagglenotebook,并将用户的HuggingFace?token?和?Weights?Biasestoken添加为密钥。

完成密钥设置后,安装?unsloth?Python包。Unsloth是一款开源框架,旨在将大型语言模型(LLM)的微调速度提升一倍,并显著提高内存效率。

%%capture

!pipinstallunsloth

!pipinstall--force-reinstall--no-cache-dir--no-depsgit+/unslothai/unsloth.git

接下来,登录HuggingFaceCLI。此步骤对于后续下载数据集以及上传微调后的模型至关重要。

fromhuggingface_hubimportlogin

fromkaggle_secretsimportUserSecretsClient

user_secrets=UserSecretsClient()

hf_token=user_secrets.get_secret(HUGGINGFACE_TOKEN)

login(hf_token)

然后,登录WeightsBiases(wandb),并创建一个新项目,以便跟踪实验过程和微调进度。

importwandb

wb_token=user_secrets.get_secret(wandb)

wandb.login(key=wb_token)

run=wandb.init(

project=Fine-tune-DeepSeek-R1-Distill-Llama-8BonMedicalCOTDataset,

job_type=training,

anonymous=allow

)

2.模型与tokenizer加载

在本文的实践中,加载了Unsloth版本的De

文档评论(0)

AI优质资料创作家 + 关注
实名认证
文档贡献者

工业和信息化人才能力认证持证人

从事10年计算机专业,目前是AI算法工程师,致力于将自己的知识和想法整理出来帮助到有需要的朋友。

领域认证该用户于2024年06月20日上传了工业和信息化人才能力认证

1亿VIP精品文档

相关文档