大模型训练-Reward学习辅导笔记:从数据准备到迭代优化.pdfVIP

  • 2
  • 0
  • 约2.9千字
  • 约 1页
  • 2026-04-27 发布于北京
  • 举报

大模型训练-Reward学习辅导笔记:从数据准备到迭代优化.pdf

/LLM行业领军大佬带你大语言模型算法工程师/大模型训练-Reward【学习辅导笔记】

大模型训练-Reward的步骤:

1.准备数据集:收集训练样本,包括输入x和期望输出y。

2.模型预训练:使用传统的无监督预训练方法(如自编、对抗生成网络等)对

章节生成模型G进行预训练,以使其具备一定的生成能力。

3.外部评估者训练:训练一个外部评估者模型E,该模型可以根据输入x和生成的

输出y来计算信号R(x,y)。

问答

文档评论(0)

1亿VIP精品文档

相关文档