通用奖励建模的推理时间缩放.pdfVIP

  • 0
  • 0
  • 约18.32万字
  • 约 40页
  • 2026-03-23 发布于广东
  • 举报

Preprint.Underreview.

Inference-TimeScalingforGeneralistRewardModeling

1,2†∗1∗111

ZijunLiu,PeiyiWang,RunxinXu,ShirongMa,ChongRuan,

32,31

PengLi,YangLiu,YuWu

1DeepSeek-AI,2Dept.ofComputerSci.Tech.,TsinghuaUniversity,

3InstituteforAIIn

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档