RLFactory:用于 LLM 多轮次工具使用的即插即用强化学习后训练框架.pdf

RLFactory:用于 LLM 多轮次工具使用的即插即用强化学习后训练框架.pdf

RLFactory:用于LLM多轮次工具使用的即插即用

强化学习后训练框架

RLFactoryTeam

�/Simple-Efficient/RL-Factory

Abstract

本大型语言模型(LLMs)在基本推理方面表现出

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档