大语言模型通识微课课件：大模型的微调.pptx

下载文档

2
0
约1.73千字
约 11页
2024-10-12 发布于山东
举报
版权申诉
保障服务

大语言模型通识微课课件：大模型的微调.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;有监督微调，又称指令微调，是指在已经训练好的语言模型的基础上，通过使用有标注的特定任务数据做进一步的微调，使模型具备遵循指令的能力。

通常，要对大模型进行微调，有以下一些原因：

（1）因为大模型的参数量非常大，训练成本非常高，每家公司都去从头训练一个自己的大模型，这个事情的性价比非常低；

（2）提示工程是一种相对来说比较容易上手的使用大模型的方式，通常大模型的实现都会对输入序列长度有限制，而提示工程会把提示搞得很长。提示越长，大模型的推理成本就越高。相对来说微调是更优方案。;（3）提示工程的效果如果达不到要求，企业又有比较好的自有数据，能够更好的提升大模型在特定领域的能力。这时候微调就非常适用。

（4）要在个性化的服务中使用大模型的能力，这时候针对每个用户的数据，训练一个轻量级的微调模型是个不错的方案。

（5）数据安全。如果数据不能传递给第三方大模型服务，那么搭建自己的大模型就非常必要。通常这些开源的大模型都需要用自有数据进行微调，才能够满足自身业务的需求。;微调的最终目的，是在可控成本的前提下，尽可能地提升大模型在特定领域的能力。从成本和效果的角度综合考虑，PEFT（参数高效微调）是比较流行的微调方案。;从参数规模的角度，大模型的微调技术路线分成两条。

（1）对全量参数进行训练，这条路径叫全量微调（FFT），是用特定的数据对大模型进行训练，这在特定数据领域的表现会好很多。

但FFT训练成本高；另外存在灾难性遗忘，用特定训练数据进行微调可能会表现变好，但也可能会把原来表现好的别的领域的能力变差。

（2）只对部分参数进行训练，这条路径叫参数高效微调（PEFT）。PEFT主要想解决的是FFT存在的两个主要问题，是比较主流的微调方案。;从训练数据来源以及训练方法看，大模型微调有以下几条技术路线：

（1）监督式微调，用人工标注的数据，通过传统机器学习中监督学习的方法，对大模型进行微调；

（2）基于人类反馈的强化学习微调，把人类反馈通过强化学习方式引入对大模型的微调中去，让大模型生成的结果更符合人类的期望；

??3）基于人工智能反馈的强化学习微调，这是想解决反馈系统的效率问题，因为收集人类反馈相对来说成本会比较高、效率比较低。

不同的分类角度只是侧重点不一样，可以多个方案并举。;提示微调的出发点是基础模型的参数不变，为每个特定任务，训练一个少量参数的小模型，在具体执行特定任务的时候按需调用。其基本原理是在输入序列X之前，增加一些特定长度的特殊词元，以增大生成期望序列的概率。具体是在Transformer模型的嵌入环节。将大模型比做一个函数，提示微调是在保证函数本身不变的前提下，在X前面加上一些特定的内容，而这些内容可以影响X生成期望中Y的概率。;前缀微调的灵感来源是提示工程的实践，在不改变大模型的前提下，在提示的上下文中添加适当的条件，引导大模型有更加出色的表现。

前缀微调的出发点跟提示微调是类似的，只不过在具体实现上有一些差异。提示微调是在嵌入环节，而前缀微调是在Transformer的编码器和解码器网络中都加了一些特定的前缀，它也保证基座模型本身没有变，只是在推理过程中，按需要在前面拼接一些参数。;LoRA方法走了另一条技术路线，可以媲美全量微调的效果。LoRA有一个假设：现在看到的这些大模型都是被过度参数化的，其背后有一个低维的本质模型。通俗地说，大模型参数很多，但并不是所有的参数都发挥同样作用。大模型的部分参数是影响生成结果的关键，这就是低维的本质模型。

LoRA的基本思路是：首先,适配特定的下游任务，训练一个特定的模型，里面主要是微调要得到的结果；其次进行低维分解；接着用特定训练数据训练。用LoRA适配不同的场景切换也非常方便，做简单的矩阵加法即可。;量化是一种在保证模型效果基本不降低的前提下，通过降低参数的精度，来减少模型对于计算资源的需求的方法，其核心目标是降成本，降训练成本，特别是降后期的推理成本。

QLoRA就是量化版的LoRA，它是在LoRA的基础上进行进一步的量化，将原本用16bit表示的参数，降为用4bit来表示，可以在保证模型效果的同时，极大地降低成本。;

您可能关注的文档

文档评论（0）

ning2021 + 关注: 实名认证

内容提供者

中医资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

更多 >

大语言模型通识微课课件：大模型的微调.pptx