清华社教学课件深入浅出大语言模型第七章基于人类反馈的强化学习方法.pptxVIP

下载本文档

0
0
约1.57千字
约 22页
2026-05-25 发布于广东
举报

清华社教学课件深入浅出大语言模型第七章基于人类反馈的强化学习方法.pptx

第七章基于人类反馈的强化学习方法马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

基于人类反馈的强化学习方法

（ReinforcementLearningfromHumanFeedback，RLHF）在经过预训练之后，ChatGPT采用基于人类反馈的强化学习方法，通过三个步骤让一个满腹经纶但没有鉴别能力的模型成为一个理解用户意图、按照用户意图回答问题、与人类价值观对齐的模型。具体是如何实现的呢？

7.1学习如何回答问题指示学习根据标注人员答案，学习如何回答问题3H原则有用性（Helpful）提供的回答对用户是有帮助的，而不仅仅是泛泛而谈理解用户的真实意图，让用户感受到实在的帮助诚实性（Honest）提供的回答要诚实、客观、公正，不能误导用户无害性（Harmless）回答内容应该是无害的，包括可能对人造成的物理、心理和社会危害符合人类价值观。

7.1学习如何回答问题采用有监督学习方法标注人员具有非常高的要求人工标注答案严格把关，必须满足以上3H原则具有一定的学历要求实际操作中还要对标注人员进行考试选拨对入选人员进行必要的培训存在“幻觉”问题很难做到完全满足3H原则通过技术手段尽可能让大模型满足3H原则

7.1学习如何回答问题与微调的区别不是针对具体任务学习一般的回答问题的方法与人类价值观对齐与GPT-1

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

清华社教学课件深入浅出大语言模型第七章基于人类反馈的强化学习方法.pptxVIP