Scaling Laws for Reward Model OveroptimizationChatGPT主题资料合编.docxVIP

下载本文档

0
0
约6.69万字
约 28页
2026-03-27 发布于浙江
举报

Scaling Laws for Reward Model OveroptimizationChatGPT主题资料合编.docx

下载本文档
关闭预览

下载本文档
收藏
分享赚钱奖
0

文本预览
常见问题

ScalingLawsforRewardModelOveroptimizationLeoGaoOpenAIJohnSchulmanOpenAIJacobHiltonOpenAIAbstract

ScalingLawsforRewardModelOveroptimization

LeoGao

OpenAI

JohnSchulman

OpenAI

JacobHilton

OpenAI

Abstract

Inreinforcementlearningfromhumanfeedback,itiscommontooptimizeagainstarewardmodeltrainedtopredicthumanpreferences.Becausetherewardmodelisanimperfectproxy,optimizingitsvaluetoomuchcanhindergroundtruthperformance,inaccordancewithGoodhart’slaw.Thiseffecthasbeenfrequentlyobserved,butnotcarefullymeasuredduetotheexpenseofcollectin

您可能关注的文档

在Databricks上利用无服务器计算的从业者指南.docx
GRC分论坛-潘蓉挖掘数据价值深化数据治理202406public.docx
《基于安全教育的安全意识盛筵》i春秋学院孙义.docx
网络安全标准实践指南——大型互联网平台网络安全评估指南(2).docx
2024HW必修高危漏洞集合_v4.0.docx
赞助商AWS-了解如何使用AWS上的Databricks管理数据和AI工作负载的成本.docx
爱德华·波钦与陶燕与曲波_让缓存缓存让WebAssembly组装敲响Chrome的壳.docx
隐私计算联盟数据流通利用研究报告2024年71页.docx
开源软件开发基础与实践一-PostgresQL通识课分布式数据库简史_吕海波.docx
峰-数智化趋势下的SRE转型实践.docx

文档评论（0）

1亿VIP精品文档

更多 >

Scaling Laws for Reward Model OveroptimizationChatGPT主题资料合编.docxVIP