大语言模型通识第8章提示工程与微调.pptVIP

下载本文档

46
0
约1.08万字
约 71页
2024-08-22 发布于江苏
举报

大语言模型通识第8章提示工程与微调.ppt

（2）只对部分参数进行训练，这条路径叫参数高效微调（PEFT）。PEFT主要想解决的是FFT存在的两个主要问题，它是比较主流的微调方案。8.6.1微调技术路线从训练数据的来源以及训练的方法的角度，大模型的微调有以下几条技术路线：（1）监督式微调，用人工标注的数据，通过传统机器学习中监督学习的方法，对大模型进行微调；（2）基于人类反馈的强化学习微调，是把人类的反馈，通过强化学习的方式引入到对大模型的微调中去，让大模型生成的结果更加符合人类的一些期望；8.6.1微调技术路线（3）基于人工智能反馈的强化学习微调，这个方案大致跟基于人类反馈的方案类似，但是反馈的来源是人工智能。这里是想解决反馈系统的效率问题，因为收集人类反馈相对来说成本会比较高、效率比较低。不同的分类角度只是侧重点不一样，对同一个大模型的微调，也不局限于某一个方案，可以多个方案并举。8.6.1微调技术路线提示微调的出发点是基础模型的参数不变，为每个特定任务，训练一个少量参数的小模型，在具体执行特定任务的时候按需调用。其基本原理是在输入序列X之前，增加一些特定长度的特殊词元，以增大生成期望序列的概率。具体来说，就是在Transformer模型环节中，发生在嵌入环节。将大模型比做一个函数，提示微调是在保证函数本身不变的前提下，在X前面加上了一些特定的内容，而这些内容可以影响X生成期望中Y的概率。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大语言模型通识第8章提示工程与微调.pptVIP