- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大语言模型的适配与对齐技术
0;
大规模语言模型成为了现代自然语言处理的基础设施
ScalingLaw昭示了更大的计算量一定会带来更好的效果(更低的预训练损失);
任何大语言模型都需要对齐和适配
?场景特化:适配使模型在具体场景完成具体任务
?能力激发:适配能够激发模型在预训练中学到的知识
?稳定鲁棒:适配后的模型更倾向于输出稳定和鲁棒的结果
?价值对齐:适配能够将模型的表现和价值观和人类对齐;
对齐(Alignment)是什么?
广义的对齐-让人工智能输出人类期望的内容(价值观、信息量、专业度);
?让ChatGPT写一段代码
?让机器人移动某个物体
?让AlphaGo赢下围棋比赛;
?能力增强:教会AI执行复杂任务,激发AI系统内部能力和知识
?精准可控:引导AI正确理解人类意图,完成任务
?安全可靠:确保AI不会出现意料之外的危险行为;;;
?GPT-3在数百亿语料上进行了预训练,具有1750亿参数,性能十分强大
?但GPT-3并不具备指令理解的能力,只能通过示例学习(In-context)来使用
?OpenAI对原始的GPT-3进行对齐后,其语言理解能力和安全性都提升巨大;
目录
监督学习(SFT);
Part1:SFT;
?BERT时代模型微调-使用特定任务标注数据对预训练模型进行全参数微调
?需预定义任务形式和标注数据,多任务间泛化能力差;
CaseStudy:关系抽取;
模型越来越大,如何微调?
?大模型在微调中更新所有参数,需要在计算中占用庞大的显存
?大模型在微调中对每一个任务存储一个大模型,需要在占用庞大的存储空间;
微调技术发展脉络:泛化和高效;
?将大模型的大部分参数固定,而只训练其中一小部分
?仅更新少部分参数–减少计算消耗
?仅存储轻量级增量模块–减少存储开销
?增量微调的下游表现与全参数微调相当;
?将问题进行形式化描述,并提出DeltaTuning(增量微调)的概念
Parameter-efficientFine-tuningofLarge-scalePre-trainedLanguageModels.NatureMachineIntelligence.;
?DeltaTuning:理论和实验分析-100余个NLP任务评估
?增量微调性能可替代全参数微调,大幅提升计算效率
?具有高度组合泛化性和迁移性;
?在Transformer层间插入小的神经网络模块(adapters)
?Adapters包含下映射与上映射
ht-f(hwa)wa+h.;
参数高效对齐:Ladder-Adapter
?将Adapter挪到了模型之外进行单独计算
?节省计算模型外的Adapter模块不用反向传播到模型内部
?节省内存:模型外的Adapter模块的隐层维度h较小;
参数高效对齐:LoRA
?在Transformer每层之间插入可训练的低秩矩阵
?LoRA仅微调1750亿参数GPT-3其中的470万参数;
?将LoRA的rank从静态变成动态调整,每一个矩阵都有可能不同
?设计一个门机制,高效地将矩阵进行稀疏更新,对于稀疏的行和列,训练后直接扔掉;
参数高效对齐:SoRA;
参数高效对齐:SoRA
SoRA可以作为Scheduler,在训练中发现转折点;
提示:GPT-3带来的转折
?GPT-3是拥有1750亿参数的巨大模型,难以全参数微调
?GPT-3具备了强大的零次/少次学习能力
?不直接更新模型本身的参数,仅输入任务描述与示例
?展示少量数据就能掌握新能力,学习能力强弱与参数规模正相关;
提示:GPT-3带来的转折
?通过给数据增加“提示”,预训练大模型可以完成训练数据的范式统一;
提示:GPT-3带来的转折
?通过给数据增加“提示”,预训练大模型可以完成训练数据的范式统一;
适用大模型的微调方案
?具备强任务的泛化能力:多种任务上的指令微调;
它和多任务学习的区别是什么?;
?针对自然语言处理任务的指令微调:选定已有自然语言处理任务,人工标注多样化的指令,让模型学会执行和泛化各类自然语言处理任务
?可以极大增强模型的泛化能力和用户意图理解;
指令微调
?最初的指令微调尝试在不同的NLP任务上
?模型获得了强大的跨任务迁移能
文档评论(0)