《大语言模型》课件 09强化学习、10元学习.ppt

下载文档

2
0
约2.3万字
约 84页
2025-12-18 发布于山东
举报
版权申诉
保障服务

《大语言模型》课件 09强化学习、10元学习.ppt

1、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，可选择认领，认领后既往收益都归您。。
2、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形，可联系本站下载客服投诉处理。
3、文档侵权举报电话：400-050-0827(电话支持时间：9:00-18:30)。

.可以看出，PPO算法对步长十分敏感，但是选择合适的步长有些困难，在训练过程中新旧策略的变化差异如果过大，则不利于学习。PPO算法提出了新的目标函数可以在多个训练步骤实现小批量的更新，解决了策略梯度算法中步长难以确定的问题。奖励损失不可导的原因是奖励模型是根据文本生成的结果计算出来的。这个文本是通过对语言模型输出的对数概率进行解码得到的，这个解码过程是不可导的。为了使损失可导，在语言模型上应用PPO算法可对计算的损失函数进行小的修改，应用PPO算法修改损失函数如图9-10所示。.具体过程如下。（1）将初始概率设为新概率进行初始化。（2）计算新输出文本概率与