- 0
- 0
- 约1.57千字
- 约 22页
- 2026-05-25 发布于广东
- 举报
第七章基于人类反馈的强化学习方法马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号
基于人类反馈的强化学习方法
(ReinforcementLearningfromHumanFeedback,RLHF)在经过预训练之后,ChatGPT采用基于人类反馈的强化学习方法,通过三个步骤让一个满腹经纶但没有鉴别能力的模型成为一个理解用户意图、按照用户意图回答问题、与人类价值观对齐的模型。具体是如何实现的呢?
7.1学习如何回答问题指示学习根据标注人员答案,学习如何回答问题3H原则有用性(Helpful)提供的回答对用户是有帮助的,而不仅仅是泛泛而谈理解用户的真实意图,让用户感受到实在的帮助诚实性(Honest)提供的回答要诚实、客观、公正,不能误导用户无害性(Harmless)回答内容应该是无害的,包括可能对人造成的物理、心理和社会危害符合人类价值观。
7.1学习如何回答问题采用有监督学习方法标注人员具有非常高的要求人工标注答案严格把关,必须满足以上3H原则具有一定的学历要求实际操作中还要对标注人员进行考试选拨对入选人员进行必要的培训存在“幻觉”问题很难做到完全满足3H原则通过技术手段尽可能让大模型满足3H原则
7.1学习如何回答问题与微调的区别不是针对具体任务学习一般的回答问题的方法与人类价值观对齐与GPT-1
您可能关注的文档
- 清华社课件循序渐进python程序设计第11章Matplotlib库应用基础.pptx
- 清华社课件循序渐进python程序设计第7章文件处理.pptx
- 清华社课件循序渐进python程序设计第2章数据类型.pptx
- 清华社课件循序渐进python程序设计第10章Pandas库的使用.pptx
- 清华社课件循序渐进python程序设计第9章Numpy库的使用.pptx
- 清华社课件循序渐进python程序设计第4章 函数应用.pptx
- 清华社课件循序渐进python程序设计第3章 基本语句.pptx
- 清华社课件计算与人工智能第2章 简单问题求解.pptx
- 清华社课件计算与人工智能第10章 科学计算.pptx
- 清华社课件计算与人工智能第6章:数组.pptx
原创力文档

文档评论(0)