- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
精微调校DeepSeekR1模型,赋能医疗精准问答:开源AI的潜力释放
DeepSeek?推出一系列先进推理模型,挑战OpenAI行业地位,且完全免费、无使用限制,惠及所有用户。
本文将介绍如何使用HuggingFace的医学思维链数据集,对DeepSeek-R1-Distill-Llama-8B模型进行微调。这款精简版?DeepSeek-R1?模型,通过在DeepSeek-R1生成的数据上微调Llama38B模型而得,展现出与原模型相近的卓越推理能力。
DeepSeekR1解密
DeepSeek-R1与DeepSeek-R1-Zero在数学、编程及逻辑推理任务中,性能均可比肩OpenAI的o1模型。值得一提的是,R1和R1-Zero均为开源模型。
DeepSeek-R1-Zero
DeepSeek-R1-Zero作为首个完全采用大规模强化学习(RL,ReinforcementLearning)训练的开源模型,有别于传统以监督微调(SFT,SupervisedFine-Tuning)为初始步骤的模型。这种创新方法赋予了模型独立探索思维链(CoT,Chain-of-Thought)推理的能力,使其能够解决复杂问题并迭代优化输出结果。然而,此方法也带来了一些挑战,例如推理步骤可能出现重复、可读性降低以及语言风格不统一等问题,进而影响模型的清晰度和实用性。
DeepSeek-R1
DeepSeek-R1的发布旨在克服DeepSeek-R1-Zero的不足。通过在强化学习之前引入冷启动数据,DeepSeek-R1为推理和非推理任务奠定了更坚实的基础。这种多阶段训练策略使得DeepSeek-R1在数学、编程和推理基准测试中,能够达到与OpenAI-o1匹敌的领先水平,并显著提升了输出内容的可读性与连贯性。
DeepSeek蒸馏模型
DeepSeek还推出了蒸馏模型系列。这些模型在保持卓越推理性能的同时,体积更小、效率更高。虽然参数规模从1.5B到70B不等,但这些模型均保留了强大的推理能力。其中,DeepSeek-R1-Distill-Qwen-32B在多项基准测试中,性能超越了OpenAI-o1-mini模型。更小规模的模型继承了大型模型的推理模式,充分证明了蒸馏技术的有效性。
DeepSeekR1微调实战
1.环境配置
在本次模型微调实践中,选用Kaggle作为云端IDE,原因在于Kaggle提供了免费的GPU资源。最初选择了两块T4GPU,但最终仅使用了一块。若用户希望在本地计算机上进行模型微调,则至少需要配备一块具备16GB显存的RTX3090显卡。
首先,启动一个新的Kagglenotebook,并将用户的HuggingFace?token?和?Weights?Biasestoken添加为密钥。
完成密钥设置后,安装?unsloth?Python包。Unsloth是一款开源框架,旨在将大型语言模型(LLM)的微调速度提升一倍,并显著提高内存效率。
%%capture
!pipinstallunsloth
!pipinstall--force-reinstall--no-cache-dir--no-depsgit+/unslothai/unsloth.git
接下来,登录HuggingFaceCLI。此步骤对于后续下载数据集以及上传微调后的模型至关重要。
fromhuggingface_hubimportlogin
fromkaggle_secretsimportUserSecretsClient
user_secrets=UserSecretsClient()
hf_token=user_secrets.get_secret(HUGGINGFACE_TOKEN)
login(hf_token)
然后,登录WeightsBiases(wandb),并创建一个新项目,以便跟踪实验过程和微调进度。
importwandb
wb_token=user_secrets.get_secret(wandb)
wandb.login(key=wb_token)
run=wandb.init(
project=Fine-tune-DeepSeek-R1-Distill-Llama-8BonMedicalCOTDataset,
job_type=training,
anonymous=allow
)
2.模型与tokenizer加载
在本文的实践中,加载了Unsloth版本的De
您可能关注的文档
- 从 PDF 中提取有价值的信息:Gemini 2.0 结构化输出方案.docx
- 无需本地GPU即可私有化部署 DeepSeek-R1 32B.docx
- DeepSeek 带火 Ollama,你的本地部署安全吗?警惕算力被“盗用”!.docx
- Qwen2.5-VL Notebook 示例详解:从入门到精通多模态视觉模型.docx
- 2026年宪法日知识试题(能力提升).docx
- 2026年宪法学第一章测试题及答案(考点梳理).docx
- 2026年禁毒知识期末试题(历年真题).docx
- 2026年全区宪法知识测试题精选答案.docx
- 2026年宪法知识测试试题(b卷).docx
- 2026年上海宪法知识测试题及答案(夺冠系列).docx
最近下载
- 肿瘤科护理一科一品成果.pptx VIP
- 华为DSTE战略管理体系完整版1.pptx VIP
- 喷锚支护计算书.doc VIP
- 2025新修订《治安管理处罚法》应知应会100题(含答案+解析).pdf
- 新外研版必修三单词默写表(附参考答案).docx VIP
- 《制冷和空调设备基础与技能》单元2 全封闭活塞式制冷压缩机的拆卸、检测与维修 教学课件.pptx VIP
- 《万以内数的认识:整理和复习》教学设计-2025-2026学年人教版(新教材)小学数学二年级下册.docx
- JHD系列商业卫星用56Gbps矩形高速IO连接器.pdf VIP
- EtherCAT总线在运动控制系统的应用.ppt VIP
- 2026届湖南省衡阳市第一中学物理高二上期末监测试题含解析.doc
原创力文档


文档评论(0)